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新 技术 产生 ,发 展 和 不 断 完善 的 推动 力 ,来 源 于 现实 生活 的 需要 。 由 于 在 现实 中 ,数据 
大 量 存在 ,而且 在 迅速 地 增长 ,这 就 要 求 将 现 有 信息 系统 的 数据 库 重新 组 织 转变 为 面向 决策 
分 析 的 数据 仓库 ,以 帮助 决策 者 从 不 同 的 视角 ,通过 综合 数据 分 析 掌 握 现 状 , 通 过 多 维 数 据 
分 析 发 现 各 种 存在 的 问题 ,通过 对 数据 层次 的 钻 取 找 出 问题 产生 的 原因 ,通过 历史 数据 预测 
未 来 。 在 解决 目前 各 企业 信息 系统 存在 的 “信息 孤岛 "问题 时 ,基于 数据 仓库 的 技术 给 人 们 
带 来 了 和 希望 。 随 着 新 的 技术 和 观念 的 不 断 引 入 ,基于 数据 仓库 的 应 用 也 有 了 新 的 发 展 。 每 
个 企业 的 数据 仓库 根据 企业 特点 不 同 , 可 以 采用 非常 灵活 的 选 型 方法 进行 选 型 设计 、 实 施 。 
数据 仓库 和 数据 挖掘 ,从 几 年 前 比较 抽象 的 层次 逐渐 清晰 起 来 ,在 企业 决策 和 业务 流程 优化 
中 发 挥 的 作用 越 来 越 大 ,尤其 是 在 推动 精细 化 管理 和 依靠 数据 做 决策 方面 。 应 用 和 技术 是 
两 个 互相 推进 的 因素 ,应 用 是 驱动 ,但 是 好 的 技术 也 可 以 推动 应 用 的 发 展 ,由 于 数据 仓库 辅 
助 决策 效果 明显 ,数据 仓库 已 经 从 20 世纪 90 年 代 中 期 兴起 ,经 过 几 年 的 发 展 ,迅速 形成 了 
潮流 。 
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2005 进行 操作 实践 。 通 过 对 具体 实例 的 学 习 和 实践 ,使 读者 掌握 数据 仓库 和 数据 挖掘 中 必 
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第 1 辣 ”数据 仑 库 与 数据 浸 握 设计 


20 世纪 80 年 代 中 后 期 , 随 着 各 行 各 业 对 计算 机 应 用 需求 的 多 样 化 .深入 化 ,用 户 除了 
需要 计算 机 为 其 处 理 日 常事 务 外 ,更 需要 从 大 量 实物 数据 中 归纳 出 业务 的 规律 性 及 其 发 展 
趋势 ,直到 决策 制定 。 数 据 仓 库 就 在 这 样 的 一 种 背景 下 应 运 而 生 。 随 着 人 们 认识 和 管理 水 
平 的 提高 ,对 于 客观 世界 的 描述 愈 来 愈 全 面 ,存储 的 信息 量 越 来 越 大 ,但 如 何 将 这 些 海 量 的 
数据 从 数据 仓库 中 提取 出 来 ,并 转 为 有 用 的 信息 ,仍然 是 一 个 亚 待 解决 的 问题 。 为 此 ,人 们 
进行 了 多 方面 的 研究 尝试 ,数据 挖掘 技术 就 是 其 中 的 一 种 新 技术 。 从 目前 的 形势 看 ,数据 仓 
库 技 术 和 数据 挖掘 技术 紧 跟 Internet 技术 的 发 展 ,成 为 信息 社会 中 企业 竞争 的 又 一 关键 。 


1.1 数据 仓库 的 产生 与 发 展 


随 着 人 们 对 信息 技术 利用 能 力 的 增强 ,对 数据 的 应 用 也 从 低级 的 查询 操作 ,提升 到 为 企 
业经 营 管理 提供 决策 支持 。 而 传统 数据 库 只 保留 了 当前 的 业务 处 理 信息 ,缺乏 决策 分 析 所 
需要 的 大 量 历史 信息 。 为 满足 管理 人 员 的 决策 分 析 需 要 ,就 需要 构建 适应 决策 分 析 的 数据 
环境 一 一 数据 仓库 (Data Warehouse,DW)。 


1.1.1 数据 仓库 的 产生 


传统 的 数据 库 技术 以 单一 的 数据 资源 即 数据 库 为 中 心 ,进行 事务 处 理 、 批 处 理 、 决 策 分 
析 等 各 种 数据 处 理工 作 。 它 主要 划分 为 两 大 类 : 操作 型 处 理 和 分 析 型 处 理 ( 或 信息 型 处 
理 ) 。 操 作 型 处 理 也 叫 事务 处 理 , 是 指 对 数据 库 联 机 的 日 常 操作 ,通常 是 对 一 个 或 一 组 纪录 
的 查询 和 修改 ,主要 为 企业 的 特定 应 用 服务 ,注重 响应 时 间 .数据 的 安全 性 和 完整 性 ;分 析 型 
处 理 则 用 于 管理 人 员 的 决策 分 析 、 经 常 要 访问 大 量 的 历史 数据 。 传 统 数据 库 系统 专注 于 企 
业 的 日 常事 务 处 理工 作 ,而 难于 实现 对 数据 分 析 处 理 要 求 , 具 体 体现 在 以 下 三 个 方面 : 历史 
数据 需求 量 很 大 ;辅助 决策 信息 涉及 许多 部 门 的 数据 ,而 不 同系 统 的 数据 难以 集成 ;由 于 访 
问 数据 的 能 力 不 足 , 它 对 大 量 数据 的 访问 性 能 明显 下 降 。 显 然 , 传 统 数据 库 已 经 无 法 满足 数 
据 处 理 多 样 化 的 要 求 。 因 此 ,操作 型 处 理 和 分 析 型 处 理 的 分 离 成 为 必然 。 

近年 来 , 随 着 数据 库 技 术 的 应 用 和 发 展 , 人 们 尝试 对 数据 库 中 的 数据 进行 再 加 工 , 形 成 
一 个 综合 的 、 面 向 分 析 的 环境 ,以 更 好 地 支持 决策 分 析 , 从 而 形成 了 数据 仓库 技术 (Data 
Warehousing,DW)。 作 为 决策 支持 系统 (Decision Support System,DSS) ,数据 仓库 系统 包 
括 : 数据 仓库 技术 、 联 机 分 析 处 理 技术 (On-Line Analytical Processing,OLAP) 和 数据 挖掘 
(Data Mining,DM) 技 术 。 数 据 仓 库 弥 补 了 原 有 的 数据 库 的 缺点 ,将 原来 的 以 单一 数据 库 为 
中 心 的 数据 环境 发 展 为 一 种 新 环境 一 一 体系 化 环境 ,如 图 1.1 所 示 。 

数据 仓库 最 根本 的 特点 是 物理 地 存放 数据 ,而 且 这 些 数据 并 不 是 最 新 的 、 专 有 的 ,而 是 
来 源 于 其 他 数据 库 的 。 数 据 仓 库 的 建立 并 不 是 要 取代 数据 库 , 它 要 建立 在 一 个 较 全 面 和 完 
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善 的 信息 应 用 的 基础 上 ,用 于 支持 高 层 决策 分 析 ,而 事务 处 理 数据 库 在 企业 的 信息 环境 中 承 
担 的 是 日 常 操作 性 的 任务 。 数 据 仓 库 是 数据 库 技 术 的 一 种 新 的 应 用 ,到 目前 为 止 ,数据 仓库 
还 是 用 关系 数据 库 管理 系统 来 管理 其 中 的 数据 。 
操作 型 环境 全 局 级 部 门 级 个 人 级 
| 
操作 型 环境 | 一 一 -~| 数据 仓库 | 一 | 局 部 仓库 | 一 | 个 人 仓库 


| 
| 
一 一 表示 数据 的 抽取 方向 
图 1.1 数据 仓库 体系 化 环境 


数据 仓库 技术 从 本 质 上 讲 , 是 一 种 信息 集成 技术 , 它 从 多 个 信息 源 中 获取 原始 数据 ,经 
过 加 工 处 理 后 ,存储 在 数据 仓库 的 内 部 数据 库 中 。 为 了 使 数据 仓库 用 户 能 有 效 地 使 用 数据 
仓库 中 的 信息 ,进行 深层 次 的 综合 分 析 和 决策 ,数据 仓库 系统 要 向 用 户 提供 一 整套 数据 访问 
和 分 析 工 具 。 通 过 所 提供 的 访问 工具 ,为 数据 仓库 的 用 户 提供 统一 、 协 调和 集成 的 信息 环 
境 , 支 持 企 业 全 局 的 决策 过 程 和 对 企业 经 营 管理 的 深入 综合 分 析 。 


1.1.2 数据 仓库 的 发 展 


数据 仓库 技术 是 近年 来 出 现 的 ,发 展 迅 速 的 一 种 技术 , 它 通 过 把 企业 大 量 的 历史 数据 整 
理 集中 到 一 个 中 央 仓 库 中 ,将 数据 加 以 分 析 并 呈现 给 用 户 来 支持 管理 者 的 决策 。 数 据 仓库 
使 得 人 们 只 花 很 短 的 时 间 就 能 够 从 大 量 的 历史 数据 中 查询 出 所 需 的 数据 。 数 据 仓库 技术 使 
我 们 从 全 新 的 视角 认识 了 数据 的 价值 。 然 而 ,从 目前 的 情况 看 ,在 中 国 数据 仓库 推广 还 处 于 
起 步 阶段 ,仍然 存在 许多 不 成 熟 因素 ,如 计算 机 应 用 水 平 较 低 .数据 保存 和 管理 不 完善 ,人才 
缺乏 没有 真正 适合 行业 特点 的 应 用 技术 等 。 但 不 管 怎么 说 ,数据 仓库 的 应 用 对 于 中 国企 业 
未 来 加 入 国际 竞争 有 着 不 可 替代 的 作用 。 

目前 ,数据 仓库 技术 的 运用 正在 向 广度 和 深度 两 个 方向 扩展 。 广 度 扩展 指 的 是 数据 源 
的 广泛 化 。 不 仅 可 以 从 各 种 异 构 的 数据 库 中 获取 数据 ,还 包括 面向 Internet 从 互联 网 上 获 
取 数 据 。 而 深度 方向 的 研究 指 的 是 基于 已 有 信息 ,面向 数据 分 析 的 应 用 。 包 括 数 据 仓 库 技 
术 和 联机 分 析 处 理 技 术 。 


1.1.3 数据 仓库 的 研究 与 开发 现状 


在 应 用 需求 背景 的 推动 下 ,学 术 界 和 工业 界 一 起 开始 对 数据 仓库 及 其 相关 技术 进行 研 
究 和 开发 。 目 前 ,学 术 界 所 进行 的 研究 主要 包括 新 的 索引 技术 、 实 物化 视图 技术 、 多 维 存 储 
技术 、 查 询 优 化 与 并 行 处 理 技术 等 。 


1. 新 的 索引 技术 


索引 是 一 种 加 快 数据 库 中 数据 的 加 载 和 定位 的 内 部 结构 ,通过 创建 索引 可 以 大 大 提高 
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系统 的 性 能 。 对 于 以 建立 客户 统一 视图 ,存放 历史 数据 为 主 的 数据 仓库 来 说 ,数据 查询 是 其 
最 主要 功能 之 一 。 然 而 ,从 数据 仓库 系统 的 数据 组 织 结构 观察 ,不 难看 出 此 类 系统 查询 的 复 
杂 性 是 普通 的 业务 系统 望尘莫及 的 。 它 经 常会 涉及 多 表 的 连接 .分 类 排序、 累计 等 操作 , 同 
时 查询 时 载 和 人 和 返回 的 数据 量 一 般 都 很 大 ,系统 资源 耗费 巨大 。 基 于 这 些 因素 的 考虑 ,相应 
的 数据 仓库 索引 技术 就 应 运 而 生 了 。 数 据 仓库 中 除了 应 用 B 十 树 索 引 技 术 外 ,还 用 到 一 些 
新 的 索引 技术 ,如 位 图 索引 、 连 接 索 引 、 多 维 索引 等 。 实 验 表 明 新 的 索引 技术 确实 能 够 提高 
查询 的 性 能 。 


2. 实物 化 视图 技术 


实物 化 视图 简称 实 视图 ,是 存储 了 实际 数据 的 视图 。 在 响应 查询 时 , 若 能 直接 采用 实 视 
图 技术 , 则 可 以 避免 相应 的 重新 计算 ,从 而 提高 查询 处 理 的 性 能 。OLAP 查询 分 析 是 一 个 
非常 耗 时 的 过 程 , 它 通常 涉及 大 量 的 数据 , 且 要 对 数据 进行 投影 .连接 .分 组 等 复杂 处 理 。 
OLAP 要 求 它 的 查询 能 够 快速 地 给 予 响应 ,因此 数据 仓库 则 对 经 常 可 能 提交 的 查询 建立 许 
多 “ 实 视 图 ”, 它 是 含有 数据 查询 结果 的 实际 存在 的 表 。 通 过 这 种 预先 计算 出 来 的 数据 结果 
并 保存 在 数据 库 中 ,OLAP 无 须 每 次 提交 查询 都 读 取 原始 数据 ,而 只 需 比 原始 数据 量 小 很 
多 的 实 视图 进行 简单 地 计算 便 可 以 完成 复杂 的 查询 。 目 前 存在 的 实 视图 响应 查询 算法 大 部 
分 采用 顺序 搜索 的 方法 ,以 寻找 可 能 响应 查询 的 实 视图 。 

实 视图 为 系统 解决 快速 响应 用 户 需求 的 同时 ,也 带 来 了 新 问题 。 数 据 仓 库 中 的 数据 是 
由 异 构 的 传统 数据 库 进 行 ETL 转化 而 来 的 ,并 随时 间 的 推移 不 断 增 长 ,因此 如 何 使 得 数据 
仓库 中 的 实 视图 与 更 新 后 的 数据 仓库 仍 能 保持 同步 , 即 实 视图 的 维护 , 便 成 为 一 个 关键 技 
术 。 目 前 ,很 多 学 者 在 实 视 图 选择 的 框架 理论 以 及 在 空间 的 限制 下 ,使 查询 响应 时 间 和 视图 
维护 代价 总 和 最 小 的 实 视图 选择 代价 模型 方面 进行 了 一 定 的 探讨 。 


3. 立方 体 计算 


数据 立方 体 (data cube) 是 多 维 数据 库 的 一 种 形象 描述 方法 ,数据 在 多 维 数据 仓库 中 是 
以 数据 立方 体 的 形式 存储 的 。 为 了 提高 查询 效率 ,常常 采用 预 聚 集 技 术 将 数据 立方 体 中 的 
数据 进行 聚集 处 理 , 然 后 将 处 理 后 的 数据 保存 到 数据 立方 体 视图 (datacube view) 中 。 将 数 
据 由 原来 的 二 维 关系 表 组 成 多 维 立方 体 ,在 其 上 进行 旋转 .切片 . 切 块 、 下 外 (drilling-down) 
和 上 翻 (rolling-up) 等 操作 ,从 而 提高 了 SQL 对 多 维 数 据 的 支持 。 如 何 对 立方 体 进行 多 维 
计算 及 优化 是 OLAP 实施 的 关键 技术 ,在 数据 库 领域 ,专家 学 者 先后 在 数据 仓库 中 的 立方 
体 计算 立方体 预 聚集 处 理 .立方 体 压 缩 存储 .语义 立方 体 .立方体 更 新 方面 取得 了 一 些 研 究 
成 果 ,提高 了 数据 立方 体 的 性 能 。 


4. 查询 优化 与 并 行 处 理 技术 


为 了 提高 查询 速度 ,采用 查询 优化 及 并 行 处 理 技术 ,对 DBMS 加 以 改进 ,充分 支持 具有 
多 处 理 器 的 SMP 和 MPP 系统 。 并 行 处 理 主要 包含 数据 装载 时 的 并 行 、 同 一 查询 执行 时 的 
并 行 、 执 行 查询 与 数据 装载 的 并 行 以 及 查询 和 与 查询 之 间 的 并 行 。 对 于 ROLAP 进行 查询 
时 ,经 常 要 进行 多 个 表 之 间 的 连接 ,在 传统 DBMS 中 ,一 般 只 支持 两 个 表 之 间 的 连接 ,多 表 

。3.。 


连接 将 被 分 成 两 表 之 间 的 连接 一 步 一 步 去 做 。 这 就 有 个 连接 次 序 问 题 ,要 选择 最 佳 连接 次 
序 。 由 于 Fact 表 非 常 庞 大 ,因此 进行 多 表 连 接 开 销 很 大 ,为 解决 这 一 问题 ,在 Fact 表 上 建 
立 连接 索引 (join index) 。 与 普通 索引 不 同 , 连 接 索引 的 属性 不 是 Fact 表 的 属性 ,而 是 维 表 
中 相应 的 属性 ,这样 在 多 表 连 接 时 利用 连接 索引 ,不 进行 真正 的 连接 运算 ,就 能 找到 符合 查 
询 条 件 的 记录 ,从 而 大 大 提高 效率 。 


5. 分 组 聚集 技术 


在 数据 仓库 中 ,OLAP 往往 需 在 大 量 历史 数据 上 进行 复杂 的 分 组 聚集 查询 ,这 些 查询 
中 通常 包含 多 表 连 接 和 分 组 聚集 操作 ,因此 提高 这 些 操作 的 性 能 成 为 提高 OLAP 查询 响应 
速度 的 关键 问题 之 一 。 


1.1.4 数据 仓库 的 作用 


数据 仓库 主要 有 以 下 三 方面 的 作用 。 

(1) 数据 仓库 提供 了 标准 的 报表 和 图 表 功 能 ,其 中 的 数据 来 源 于 不 同 的 多 个 事务 处 理 
系统 。 因 此 ,数据 仓库 的 报表 和 图 表 是 关于 整个 企业 集成 信息 的 报表 和 图 表 。 

(2) 数据 仓库 支持 多 维 分 析 ,多 维 分 析 是 通过 把 一 个 实体 的 多 项 重要 的 属性 定义 为 多 
个 维度 ,使 得 用 户 能 方便 地 汇总 数据 集 , 简 化 了 数据 的 分 析 处 理 逻 辑 , 并 能 对 不 同 维度 值 的 
数据 进行 比较 ,而 维度 则 表示 了 对 信息 的 不 同 理解 角度 。 应 用 多 维 分 析 可 以 在 一 个 查询 中 
对 不 同 阶段 的 数据 进行 纵向 或 横向 比较 ,这 在 决策 过 程 中 非常 有 用 。 

(3) 数据 仓库 是 数据 挖掘 技术 的 关键 基础 ,数据 挖掘 技术 要 在 已 有 数据 中 识别 数据 的 
模式 ,以 帮助 用 户 理解 现 有 的 信息 ,并 在 已 有 信息 的 基础 上 ,对 未 来 的 状况 做 出 预测 。 在 数 
据 仓 库 的 基础 上 进行 数据 挖掘 ,就 可 以 针对 整个 企业 的 状况 和 未 来 发 展 做 出 较 完整 .合理 、 
准确 的 分 析 和 预测 。 

数据 仓库 作为 服务 于 企业 级 的 应 用 ,概括 起 来 有 以 下 四 个 方面 的 优越 性 : (1) 减 轻 系统 
负担 .简化 日 常 维护 和 管理 。(2) 改 进 数 据 的 完整 性 ,兼容 性 和 有 效 性 。(3) 提 高 了 数据 存 取 
的 效率 。(4) 提 供 简单 ,统一 的 查询 和 报表 机 制 。 


1.2 数据 仓库 的 基本 概念 


关系 数据 库 之 父 E. F. Codd 于 1993 年 提出 OLAP 的 概念 。 当 时 ,Codd 认为 联机 事 
务 处 理 已 不 能 满足 终端 用 户 对 数据 库 查 询 分 析 的 需要 ,用 户 的 决策 分 析 需 要 对 关系 数据 库 
进行 大 量 计算 才能 得 到 结果 ,因此 需要 有 一 种 面向 分 析 的 技术 ,OLAP 技术 应 运 而 生 。 数 
据 仓库 技术 的 提出 ,使 得 OLAP 技术 能 够 真正 有 效 地 提供 分 析 服 务 。 

数据 仓库 作为 一 种 信息 管理 技术 , 它 能 够 将 分 布 在 企业 的 各 种 数据 进行 再 加 工 , 从 而 形 
成 一 个 综合 的 .面向 分 析 的 环境 ,以 更 好 地 为 决策 者 提供 各 种 有 效 的 数据 分 析 , 起 到 决策 支 
持 的 作用 。 并 且 减 轻 系统 负担 ,简化 日 常 维护 和 管理 ,改进 数据 的 完整 性 ,还 为 用 户 提供 了 
简单 而 统一 的 查询 和 报表 机 制 。 


1.2.1 数据 仓库 的 定义 与 基本 特性 


数据 仓库 之 父 William H. Inmon 在 1993 年 所 写 的 Building the Data Warehouse 一 书 
中 定义 了 数据 仓库 的 概念 。 数 据 仓库 是 一 个 面向 主题 的 (subject oriented)、 集 成 的 
(integrate) ,相对 稳定 的 (non-volatile) ,反映 历 史 变 化 (time variant) 的 数据 集合 ,用 于 支持 
管理 决策 。 根 据 数据 仓库 的 定义 ,数据 仓库 具有 以 下 特点 : 

。 数据 仓库 中 的 数据 是 面向 主题 组 织 的 

。 数据 仓库 的 数据 是 集成 的 ; 

。 数据 仓库 的 数据 是 稳定 的 ; 

。 数据 仓库 的 数据 是 随时 间 不 断 变 化 的 。 


1. 面向 主题 


数据 仓库 是 按照 面向 主题 的 方式 进行 数据 组 织 的 ,也 就 是 在 较 高 层次 上 对 分 析 对 象 的 
数据 作 一 个 完整 一致 的 描述 ,能 有 效 地 刻画 出 分 析 对 象 所 涉及 的 各 项 数据 及 数据 间 的 联 
系 。 这 种 数据 组 织 方式 更 能 适合 于 较 高 层次 的 数据 分 析 , 便 于 发 现 数据 中 蕴涵 的 模式 和 
规律 。 

主题 通常 是 在 一 个 较 高 层次 上 将 数据 归 类 的 标准 ,每 个 主题 对 应 一 个 宏观 分 析 领 域 。 
比如 ,在 学 生 的 学 籍 管理 成 绩 系统 中 ,数据 常 被 组 织 成 “学 生 ”"“ 课 程 ”“ 学 生成 绩 ” 等 关系 模 
式 , 描 述 了 各 个 学 生 、 各 门 课程 以 及 学 生 学 习 各 门 课程 的 详细 信息 。 而 在 数据 仓库 中 ,我 们 
则 要 对 学 生 、 课 程 、 学 生成 绩 进行 综合 分 析 , 以 便 进行 决策 ,因而 应 重新 组 织 数据 ,完成 业务 
数据 向 主题 数据 的 转换 。 主 题 的 抽取 则 应 根据 分 析 的 要 求 进行 确定 。 如 针对 学 生成 绩 分 析 
数据 仓库 就 可 以 设置 以 下 主题 : 学 生 、 课 程 ,教师 等 。 它 根据 所 需要 的 信息 ,分 不 同类 别 、 不 
同 角度 等 主题 把 数据 整理 之 后 存储 起 来 。 


2. 集成 的 


数据 仓库 中 每 一 主题 对 应 的 源 数据 在 原 有 的 各 分 散 数据 库 中 可 能 是 重复 出 现 的 、 不 一 
致 的 ,数据 仓库 中 的 数据 不 能 从 原 有 数据 库 系 统 中 直接 得 到 。 事 务 处 理 系统 中 的 操作 型 数 
据 在 进入 数据 仓库 之 前 ,必须 经 过 统一 和 综合 ,演变 为 分 析 型 数据 。 这 是 数据 仓库 建设 中 最 
复杂 的 一 步 , 需 要 完成 的 工作 包括 : 处 理 字段 的 同名 异 义 、 异 名 同 义 、 单 位 不 统一 、 长 度 不 一 
致 等 问题 ,然后 对 源 数据 进行 综合 和 计算 ,生成 面向 主题 分 析 用 的 高 层 、 综 合 的 数据 。 


3. 相对 稳定 的 


数据 仓库 中 存放 的 是 供 分 析 决 策 用 的 历史 数据 ,而 不 是 联机 事务 处 理 的 当前 数据 ,涉及 
的 数据 操作 主要 是 数据 查询 ,一般 不 进行 数据 的 增 、 删 、 改 操作 ,业务 系统 中 的 数据 经 集成 进 
入 数据 仓库 之 后 极 少 或 根本 不 再 更 新 。 如 果 对 数据 仓库 中 的 数据 进行 了 修改 ,就 失去 了 统 
计 分 析 正 确 性 的 基础 一 一 数据 的 真实 性 。 由 于 数据 仓库 中 的 数据 量 很 大 ,因此 数据 仓库 系 
统 要 采用 各 种 复杂 的 索引 技术 ,以 提高 数据 查询 的 性 能 。 而 在 这 样 一 种 稳定 的 数据 环境 中 
使 用 索引 技术 也 是 非常 适合 的 。 


4. 随时 间 变 化 的 


数据 仓库 中 的 数据 不 是 永远 不 变 的 。 数 据 仓库 数据 是 随时 间 变 化 的 ,数据 仓库 系统 需 
要 不 断 获取 联机 事务 处 理 系统 不 同时 刻 的 数据 ,经 集成 后 追加 到 数据 仓库 中 ,因此 数据 仓库 
中 数据 的 码 ( 键 ) 都 包含 时 间 项 ,以 表明 数据 的 历史 时 期 ,并 可 在 时 间 维 度 上 对 数据 进行 分 
析 。 此 外 ,数据 仓库 中 的 数据 也 有 时 间 期 限 ,在 新 数据 不 断 进 入 的 同时 ,过 时 的 数据 也 要 从 
数据 仓库 中 排除 出 去 。 

数据 仓库 为 不 同 来 源 的 数据 提供 了 一 致 的 数据 视图 ,与 数据 挖掘 、 联 机 分 析 处 理 等 数据 
分 析 技 术 相 结合 ,可 为 用 户 提供 灵活 自主 的 信息 访问 和 丰富 的 数据 分 析 与 报表 功能 ,使 企业 
数据 得 到 充分 利用 。 数 据 仓 库 的 出 现 为 解决 企业 信息 系统 中 存在 的 “数据 丰富 ,但 是 信息 贫 
乏 ” 的 实际 情况 提供 了 一 种 有 效 的 解决 方案 。 


5. 数据 的 集合 性 


数据 仓库 的 集合 性 意味 着 数据 仓库 必须 按照 主题 ,以 某 种 数据 集合 的 形式 存储 起 来 。 
目前 数据 仓库 所 采用 的 数据 集合 方式 主要 是 以 多 维 数据 库 方式 进行 存储 的 多 维 模式 、 以 关 
系数 据 库 方式 进行 存储 的 关系 模式 或 以 两 者 相 结合 的 方式 进行 存储 的 混合 模式 。 数 据 的 集 
合 性 意味 着 在 数据 仓库 中 必须 围绕 主题 全 面 收集 有 关 数 据 , 形 成 该 主题 的 数据 集合 。 全 面 
正确 的 数据 集合 有 利于 对 该 主题 的 分 析 。 例 如 ,在 超市 的 客户 主题 中 就 必须 将 客户 的 基本 
数据 ,客户 购买 数据 等 与 客户 主题 有 关 的 数据 形成 数据 集合 。 


6. 支持 决策 作用 


数据 仓库 组 织 的 根本 目的 在 于 对 决策 的 支持 。 高 层 的 企业 决策 者 .中 层 的 管理 者 和 基 
层 的 业务 处 理 者 等 不 同 层次 的 管理 人 员 均 可 以 利用 数据 仓库 进行 决策 分 析 , 提 高 管理 决策 
的 质量 。 


1.2.2 数据 仓库 与 数据 库 的 区 别 


数据 仓库 是 在 数据 库 的 基础 上 发 展 起 来 的 ,数据 仓库 把 数据 从 各 个 信息 源 中 提取 出 来 
后 ,依照 数据 仓库 使 用 的 公共 数据 模型 ,进行 相应 变换 后 与 仓库 中 现 有 数据 集成 在 一 起 。 在 
数据 仓库 中 ,数据 可 以 被 直接 访问 ,查询 和 分 析 处 理 速 度 很 快 。 数 据 仓库 的 特点 决定 了 它 与 
传统 的 数据 库 系统 之 间 必 然 存在 有 很 大 的 差异 。 二 者 之 间 的 区 别 主要 体现 在 以 下 几 个 
方面 : 

(1) 数据 库 中 存储 的 都 是 当前 使 用 的 值 ,而 数据 仓库 中 的 数据 都 是 一 些 历史 的 、 存 档 
的 ,归纳 的 ,计算 的 数据 。 

(2) 数据 库 的 数据 主要 是 面向 业务 操作 程序 的 ,可 以 重复 处 理 , 主 要 是 用 来 进行 事务 处 
理 的 。 而 数据 仓库 却 是 面向 主题 ,主要 是 用 来 分 析 应 用 的 。 

(3) 数据 库 的 数据 结构 是 高 度 结构 化 的 ,比较 复杂 ,适合 于 操作 计算 。 而 数据 仓库 的 数 
据 却 比较 简单 ,适合 于 分 析 处 理 。 

(4) 数据 库 中 的 数据 的 使 用 频率 是 很 高 的 。 数 据 仓库 中 的 数据 的 使 用 频率 则 不 是 很 高 。 
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(5) 通常 对 数据 库 中 的 事务 的 访问 ,只 需要 访问 少量 的 记录 数据 。 而 对 数据 仓库 的 事 
务 的 访问 就 可 能 需要 访问 大 量 的 记录 。 

(6) 对 数据 库 的 响应 时 间 一 般 要 求 比较 高 ,通常 是 以 秒 为 单位 。 而 对 数据 仓库 的 响应 
时 间 要 求 则 较 低 , 通 常 比较 长 。 

数据 仓库 与 传统 数据 库 的 比较 在 内 容 、 目 标 、 结 构 等 方面 有 明显 区 别 , 具 体 如 表 1-1 
所 示 。 


表 1-1 数据 仓库 与 数据 库 对 比 表 


对 比 内 容 数据 库 数据 仓库 
数据 内 容 当前 值 历史 的 .存档 的 、 归 纳 的 .计算 的 数据 
数据 目标 面向 业务 操作 程序 、 重 复 处 理 面向 主题 域 ,管理 决策 分 析 应 用 
数据 特性 动态 变化 、 按 字段 更 新 静态 ,不 能 直接 更 新 .只 定时 添加 
数据 结构 高 度 结构 化 复杂 、 适 合 操作 计算 简单 .适合 分 析 
使 用 频率 高 中 到 低 
数据 访问 量 每 个 事务 只 访问 少量 记录 有 的 事务 可 能 要 访问 大 量 记录 
对 响应 时 间 的 要 求 ”| 以 秒 为 单位 计量 以 秒 、 分 钟 ,甚至 小 时 为 计量 单位 


在 物理 实现 上 ,数据 仓库 与 传统 意义 上 的 数据 库 并 无 本 质 的 区 别 , 主 要 是 以 关系 表 的 形 
式 实现 的 。 更 多 的 时 候 , 我 们 将 数据 仓库 作为 一 个 数据 库 应 用 系统 来 看 待 。 


1.2.3 数据 仓库 数据 的 组 织 架 构 
典型 的 数据 仓库 的 数据 组 织 架构 如 图 1.2 所 示 。 
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图 1.2 数据 仓库 的 数据 组 织 架构 


数据 仓库 中 的 数据 分 为 四 个 级 别 : 早期 细节 级 、 当 前 细节 级 、 轻 度 综合 级 、 高 度 综 合 级 。 
源 数 据 经 过 综合 后 ,首先 进入 当前 细节 级 ,并 根据 具体 需要 进一步 的 综合 ,从 而 进入 轻 度 综 
合 级 乃至 高 度 综合 级 ,老化 的 数据 将 进入 早期 细节 级 。 由 此 可 见 , 数 据 仓库 中 存在 着 不 同 的 


六 涝 韦 


综合 级 别 ,一 般 称 之 为 “粒度 "”。 粒 度 越 大 ,表示 细节 程度 越 低 ,综合 程度 越 高 。 数 据 仓 库 中 
还 有 一 部 分 重要 数据 是 元 数据 (meta data)。 元 数据 是 “关于 数据 的 数据 ”, 如 传统 数据 库 中 
的 数据 字典 是 一 种 元 数据 。 在 数据 仓库 环境 中 ,主要 有 两 种 元 数据 。 


1. 技术 元 数据 


技术 元 数据 是 存储 关于 数据 仓库 系统 技术 细节 的 数据 ,是 用 于 开发 和 管理 数据 仓库 使 
用 的 数据 。 它 主要 包括 数据 仓库 结构 的 描述 .业务 系统 .数据 仓库 和 数据 集 市 的 体系 结构 及 
模式 以 及 汇总 用 的 算法 和 操作 环境 到 数据 仓库 环境 的 映射 。 


2. 业务 元 数据 


业务 元 数据 从 业务 角度 描述 了 数据 仓库 中 的 数据 , 它 提 供 了 介 于 使 用 者 和 实际 系统 之 
间 的 语义 层 , 使 得 不 懂 计 算 机 技术 的 业务 人 员 也 能 够 读 懂 数 据 仓库 中 的 数据 。 业 务 元 数据 
主要 包括 使 用 者 的 业务 术语 所 表达 的 数据 模型 ,对 象 名 和 属性 名 ,访问 数据 的 原则 和 数据 的 
来 源 , 系 统 所 提供 的 分 析 方法 以 及 公式 和 报表 的 信息 。 

元 数据 一 般 要 记录 以 下 信息 : 程序 员 所 熟知 的 数据 结构 ,决策 支持 系统 分 析 员 所 知 的 
数据 结构 ,数据 仓库 的 源 数据 、 数 据 加 入 数据 仓库 时 的 转换 ,数据 模型 数据 模型 和 数据 仓库 
的 关系 .抽取 数据 的 历史 记录 。 


1.3 数据 仓库 的 体系 结构 


数据 仓库 从 多 个 信息 源 中 获取 原始 数据 ,经 过 整理 加 工 后 存储 在 数据 仓库 的 内 部 数据 
库 。 通 过 数据 仓库 访问 工具 ,向 数据 仓库 的 用 户 提供 统一 .协调 和 集成 的 信息 环境 ,支持 企 
业 全 局 决策 过 程 和 对 企业 经 营 管理 的 深入 综合 分 析 。 整 个 数据 仓库 系统 是 一 个 包含 4 个 层 
次 的 体系 结构 ,如 图 1.3 所 示 。 


抽取 、 清 理 
转换 、 刷 新 


LUU 


分 析 工具 


数据 集 市 
图 1.3 数据 仓库 系统 结构 图 


(1) 数据 源 是 数据 仓库 系统 的 基础 ,是 整个 系统 的 数据 源泉 ,通常 包括 企业 内 部 信息 和 
外 部 信息 。 

(2) 数据 的 存储 与 管理 是 整个 数据 仓库 系统 的 核心 。 数 据 仓库 按 照 数据 的 覆盖 范围 可 
以 分 为 企业 级 数据 仓库 和 部 门 级 数据 仓库 (通常 称 为 数据 集 市 ) 。 

(3) OLAP 服务 器 对 分 析 需 要 的 数据 进行 有 效 集成 , 按 多 维 模型 予以 组 织 , 以 便 进行 多 
角度 、 多 层次 的 分 析 , 并 发 现 趋势 。 

(4) 前 端 工 具 主 要 包括 各 种 报表 工具 、 查 询 工具 、 数 据 分 析 工 具 、 数 据 挖 所 工具 以 及 各 
种 基于 数据 仓库 或 数据 集 市 的 应 用 开发 工具 。 


1.3.1 虚拟 的 数据 仓库 体系 结构 


虚拟 数据 仓库 利用 描述 了 业务 系统 中 数据 位 置 和 抽取 数据 算法 的 元 数据 直接 从 业务 系 
统 中 抽取 查询 的 数据 进行 概括 、 聚 合 操作 后 ,将 最 终结 果 提 供给 用 户 , 如 图 1.4 所 示 。 


图 1.4 虚拟 数据 仓库 结构 


这 种 数据 仓库 的 投资 小 ,数据 仓库 并 没有 建立 新 的 数据 仓库 系统 ,而 是 尽 可 能 利用 原 有 
的 数据 库 , 大 多 数 的 操作 由 原 系统 完成 。 数 据 仓 库 只 是 将 查询 结果 概括 后 ,提供 给 用 户 。 但 
是 这 种 数据 仓库 由 于 主要 依靠 原 系 统 的 运行 ,因此 使 原 系统 的 运行 效率 大 幅度 下 降 , 而 且 系 
统 在 操作 过 程 中 可 能 会 涉及 许多 原 系统 ,这 些 系统 中 的 同一 数据 缺乏 相同 字段 结构 ,编码 和 
关键 字 , 而 且 不 同系 统 中 的 数据 更 新 是 不 一 致 的 ,必然 会 产生 在 不 同时 间 对 同一 问题 查询 结 
果 不 同 的 后 果 。 


1.3.2 单独 的 数据 仓库 体系 结构 


将 所 有 的 主题 都 集中 到 一 个 大 型 数据 库 中 的 体系 结构 。 数 据 源 中 数据 被 按照 同一 标准 
抽取 到 独立 的 数据 仓库 中 ,用 户 在 使 用 时 再 根据 主题 将 数据 仓库 中 的 数据 发 布 到 数据 集 市 


中 ,如 图 1.5 所 示 。 
数据 集 市 1 
数据 仓库 
查询 管理 
服务 器 
数据 集 市 2 


图 1.5 单独 的 数据 仓库 结构 


这 种 体系 结构 需要 构建 一 个 统一 的 企业 体系 结构 ,而且 数据 在 存储 过 程 中 需要 高 昂 的 
存储 费用 和 维护 费用 。 
从 数据 仓库 的 应 用 情况 看 ,许多 企业 大 多 采用 单一 的 数据 仓库 。 因 为 数据 仓库 中 集成 
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数据 仓库 


了 企业 的 所 有 数据 ,使 企业 能 够 使 用 企业 总 体 视 图 对 企业 的 总 体 决策 提供 帮助 。 
1.3.3 单独 的 数据 集 市 体系 结构 


数据 集 市 结构 或 称 为 主题 结构 的 数据 仓库 是 按照 主题 进行 构思 所 形成 的 数据 仓库 , 没 
有 一 个 独立 的 数据 仓库 。 系 统 的 数据 不 存储 在 同一 数据 仓库 中 ,每 个 主题 有 自己 的 物理 存 
储 区 ,如 图 1.6 所 示 。 


不 同 的 主题 数据 仓库 在 设计 时 采用 同一 企业 数据 模型 ,可 以 保证 不 同 主题 数据 仓库 采 
用 相同 的 字段 结构 编码 和 关键 字 , 可 以 保证 不 同 主题 数据 仓库 的 联合 查询 。 这 种 体系 结构 
在 数据 仓库 的 设计 中 具有 相当 大 的 优越 性 ,在 完成 整体 的 数据 模型 设计 、 数 据 抽取 程序 设计 
后 ,各 个 数据 集 市 可 以 独立 进行 设计 ,可 以 加 快 数据 仓库 的 开发 进度 ,也 可 以 选择 某 个 单独 
的 主题 数据 仓库 进行 开发 ,在 取得 开发 经 验 、 使 用 效益 或 获得 后 续 资金 后 再 对 其 他 的 主题 数 
据 仓 库 进 行 开发 。 

数据 集 市 结构 往往 只 能 对 某 一 主题 进行 操作 ,如 果 用 户 希 望 对 两 个 以 上 的 主题 进行 操 
作 , 就 要 求 用 户 对 这 两 个 主题 的 数据 结构 都 了 解 , 否 则 无 法 实现 多 主题 的 操作 ,而 且 在 多 主 
题 数据 仓库 结构 中 往往 会 产生 大 量 的 数据 宛 余 。 


1.3.4 分 布 式 数据 仓库 结构 


在 企业 各 个 分 公司 具有 相当 大 的 独立 性 时 ,企业 的 数据 仓库 结构 可 以 采用 分 布 式 结构 ， 
如 图 1.7 所 示 。 


图 1.6 数据 集 市 结构 


图 1.7 分 布 式 数据 仓库 结构 


企业 总 部 设置 一 个 全 局 数据 仓库 ,各 个 分 公司 设置 各 自 的 局 部 数据 仓库 。 局 部 数据 仓 
库 主要 存储 各 自 的 未 经 转换 的 细节 数据 ,全 局 数据 仓库 中 主要 存储 经 过 转换 的 综合 数据 。 

分 布 式 结构 数据 仓库 的 开发 成 本 一 般 在 初始 阶段 要 比 单一 数据 仓库 的 低 , 而 且 数 据 仓 
库 中 的 数据 存储 量 从 理论 上 说 可 以 无 限制 地 扩充 ,一 旦 数据 仓库 中 的 数据 量 超过 分 布 式 处 
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理 器 的 处 理 能 力 , 就 可 以 在 网 络 中 增加 一 个 服务 器 。 不 过 随 着 服务 器 的 增加 ,最 后 可 能 会 使 
网 络 中 的 数据 传输 不 堪 重 负 。 此 外 ,全 局 数据 仓库 与 局 部 数据 仓库 中 的 数据 元 余 是 分 布 式 
数据 仓库 的 又 一 缺陷 。 


1.4 数据 仓库 的 相关 概念 


1.4.1 数据 源 


数据 仓库 的 数据 源 是 指 存储 在 数据 仓库 中 的 数据 来 源 , 是 数据 仓库 系统 的 基础 ,主要 包 
括 : 业务 数据 .历史 数据 .办公 数 据 `Web 数据 .外 部 数据 以 及 数据 源 元 数据 。 


1. 业务 数据 


业务 数据 是 指 那些 从 组 织 目 前 正在 运行 的 业务 处 理 系 统 那里 收集 到 并 保存 在 业务 处 理 
系统 存储 中 的 数据 。 业 务 处 理 系统 的 数据 存储 往往 是 由 关系 型 数据 库 、 非 关系 型 数据 库 或 
文件 系统 所 构成 的 。 对 业务 数据 ,必须 分 析 哪 些 数据 应 该 加 载 到 数据 仓库 中 。 如 果 在 数据 
仓库 生成 以 后 ,才能 决定 某 一 业务 数据 应 该 加 入 数据 仓库 ,那么 该 业务 数据 就 是 一 个 新 的 数 
据 源 。 需 在 先 对 数据 仓库 的 原始 数据 模型 进行 维度 分 析 , 再 根据 现 有 数据 模型 定义 新 的 事 
实 表 或 扩充 原 有 的 事实 表 , 并 为 源 数据 定义 新 的 维 表 。 


2. 历史 数据 


历史 数据 是 指 组 织 在 长 期 的 信息 处 理 过 程 中 所 积累 下 来 的 数据 ,这 些 数据 一 般 进 行 了 
脱 机 处 理 , 以 磁带 或 其 他 脱 机 存储 设施 保存 ,对 业务 系统 的 当前 运行 不 起 作用 。 但 是 这 些 历 
史 数 据 对 于 数据 仓库 的 用 户 却 有 重要 的 使 用 价值 ,尤其 是 知识 挖掘 用 户 在 进行 知识 挖掘 时 ， 
需要 大 量 历史 数据 。 这 些 数据 一 般 要 根据 数据 仓库 模型 和 用 户 的 决策 分 析 需 求 来 确定 是 否 
加 载 进 数据 仓库 。 


3. 办 公 数 据 


办 公 数 据 主要 是 指 组 织 内 部 的 办 公 系 统 数据 ,这 些 数据 分 电子 数据 和 非 电子 数据 两 种 。 
以 电子 数据 方式 保存 的 数据 ,主要 指 以 电子 表格 、 数 据 库 或 文字 处 理 文档 等 形式 保存 的 数 
据 。 非 电子 数据 主要 指 那些 文件 .通知 .会 议 纪要 等 公文 。 从 数据 的 结构 形式 看 ,办 公 数 据 
有 的 是 以 二 维 表格 形式 表示 的 结构 化 数据 ,有 的 是 以 文字 文档 处 理 文件 表示 的 非 结构 化 数 
据 。 因 此 办 公 数 据 源 的 数据 结构 是 十 分 复杂 的 ,这 就 给 数据 仓库 的 数据 抽取 、 加 载 增加 了 很 
大 的 难度 。 有 时 其 至 需要 人 工 处 理 以 后 ,才能 加 载 到 数据 仓库 中 。 办 公 数 据 在 数据 仓库 中 
常常 用 于 支持 跨 部 门 的 决策 分 析 。 

对 于 办 公 数 据 中 的 非 电 子 数据 的 抽取 和 加 载 首先 要 利用 扫描 仪 将 书面 文档 转变 为 电子 
图 像 , 然 后 利用 光学 字符 识别 软件 将 图 像 文件 转换 为 文本 文件 ,最 后 还 要 创建 能 够 描述 和 组 
织 文档 内 部 信息 的 元 数据 。 经 过 这 些 处 理 以 后 , 非 电子 数据 才能 加 载 进 数据 仓库 。 
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4. Web 数据 


Web 数据 是 企业 通过 因特网 所 获取 的 数据 ,这 些 数据 可 以 通过 企业 的 电子 商务 系统 获 
取 , 也 可 以 通过 网 络 调查 获取 。Web 数据 大 多 是 HTML 格式 ,需要 将 其 转换 成 数据 仓库 的 
统一 格式 才能 加 载 进 数据 仓库 。 


5. 外 部 数据 


外 部 数据 是 指 那 些 不 为 企业 所 操作 、 所 拥有 、 所 控制 的 数据 ,这 些 数 据 有 的 是 电子 形式 
的 ,有 的 是 非 电子 形式 的 。 这 些 数据 源 的 使 用 难度 和 处 理 方式 与 办 公 数 据 大 致 相同 。 


6. 数据 源 元 数据 


数据 源 数据 属于 元 数据 管理 层 范围 ,在 数据 仓库 中 的 所 有 数据 都 需 要 通过 元 数据 管理 
层 来 进行 管理 .控制 。 源 数据 的 元 数据 描述 了 关于 源 数据 的 一 些 说 明 , 包 含 了 源 数 据 的 来 
源 \ 源 数据 的 名 称 、 源 数据 的 定义 、 源 数据 的 创建 时 间 等 对 源 数 据 进行 管理 所 需要 的 信息 。 
源 数 据 的 来 源 说 明了 源 数 据 是 从 哪 一 个 业务 系统 、 哪 一 个 历史 数据 、 哪 一 个 办 公 数 据 、 哪 一 
个 Web 页 上 、 哪 一 个 外 部 系统 抽取 来 的 。 源 数据 的 名 称 说 明 源 数据 现在 和 过 去 的 名 称 。 源 
数据 的 定义 说 明 源 数据 在 数据 仓库 中 的 作用 数据 类 型 .长度 等 基本 属性 。 数 据 的 创建 变化 
时 间 是 指 源 数据 在 数据 源 的 创建 时 间 和 在 数据 仓库 中 的 创建 时 间 以 及 变化 时 间 。 这 些 信息 
主要 用 于 源 数 据 的 管理 。 


1.4.2 数据 的 存储 层 


数据 仓库 的 关键 是 数据 的 存储 和 管理 。 数 据 仓库 的 组 织 管理 方式 决定 了 它 有 别 于 传统 
数据 库 的 特性 ,同时 也 决定 了 其 对 外 部 数据 表现 形式 。 

从 现 有 技术 和 产品 来 看 ,只 有 关系 数据 库 系 统 能 够 担当 此 任 。 关 系数 据 库 经 过 近 30 年 
的 发 展 , 在 数据 存储 和 管理 方面 已 经 非常 成 熟 , 非 其 他 数据 管理 系统 可 比 。 目 前 不 少 关 系数 
据 库 系 统 已 支持 数据 分 割 技术 ,能够 将 一 个 大 的 数据 库 表 分 散在 多 个 物理 存储 设备 中 , 进 一 
步 增 强 了 系统 管理 大 数据 量 的 扩展 能 力 。 

数据 存储 层 是 数据 仓库 的 主体 ,所 存储 的 数据 包括 三 部 分 ,一 是 从 外 部 数据 源 抽取 ,经 
清洗 、 转 换 处 理 , 并 按 主 题 组 织 存放 的 业务 数据 ;二 是 数据 仓库 的 元 数据 ;三 是 针对 不 同 的 数 
据 挖掘 和 分 析 主 题 而 生成 的 数据 集 市 。 


1. 抽取 存储 区 


构建 数据 仓库 时 ,从 外 部 数据 源 抽 取 的 数据 ,在 正式 导入 数据 仓库 之 前 ,应 先 存放 在 组 
冲 区 中 ,以 便 进行 数据 清洗 与 转换 ,这 一 缓冲 区 即 称 为 “抽取 存储 区 ”(extraction store) 。 

在 数据 仓库 中 ,从 不 同 来 源 、. 不 同 结构 的 外 部 数据 源 中 抽取 的 数据 ,相互 之 间 不 可 避免 
地 存在 着 数据 内 容 的 缺陷 和 格式 上 的 不 一 致 ,不 能 直接 导入 数据 仓库 ,而 应 当 暂 时 存放 在 系 
统 的 抽取 存储 区 中 ,以 待 进一步 处 理 。 
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2. 数据 仓库 


数据 仓库 是 存储 数据 的 一 种 组 织 形 式 , 它 从 传统 数据 库 中 获得 原始 数据 , 先 按 辅助 决策 
的 主题 要 求 形成 当前 基本 数据 层 , 再 按 综 合 决策 的 要 求 形成 综合 数据 层 。 随 着 时 间 的 推移 ， 
由 时 间 控 制 机 制 将 当前 基本 数据 层 转 为 历史 数据 层 。 可 见 数据 仓库 中 人 逻辑 结构 数据 由 3 层 
到 4 层 数据 组 成 ,它们 均 由 元 数据 (meta data) 组 织 而 成 。 数 据 仓库 中 数据 的 物理 存储 形式 
有 多 维 数据 库 组 织 形 式 和 基于 关系 数据 库 组 织 形式 。 


3. 数据 集 市 
数据 仓库 把 所 有 数据 源 的 数据 集中 存储 ,为 企业 的 信息 主题 服务 ,按照 业务 主题 组 织 数 
据 , 能 够 适应 各 类 用 户 的 查询 和 分 析 , 具 有 很 好 的 灵活 性 ,然而 ,这 样 导 致 的 后 果 是 数据 仓库 
的 存储 数据 量 很 大 ,其 查询 操作 的 响应 速度 较 慢 。 为 了 解决 这 个 问题 ,引入 了 数据 集 市 的 概 
念 。 数 据 集 市 又 叫 高 性 能 查询 结构 , 它 面向 企业 中 某 个 部 门 或 业务 分 析 的 主题 ,存储 的 数据 
量 相对 较 小 ,对 查询 响应 的 要 求 较 高 。 两 者 的 区 别 如 表 1-2 所 示 。 
表 1-2 数据 仓库 与 数据 集 市 区 别 


类 别 数据 仓库 数据 集 市 

范围 企业 级 部 门 级 

主题 企业 主题 部 门 或 特殊 的 分 析 主题 
数据 粒度 最 细 的 粒度 较 粗 的 粒度 

历史 数据 大 量 的 历史 数据 适度 的 历史 数据 

优化 处 理 海 量 数据 .数据 探索 便于 访问 和 分 析 、 快 速 查询 


数据 仓库 的 建立 过 程 一 般 有 两 种 方法 :“ 自 项 而 下 ”和 “ 自 底 向 上 ”。“ 自 顶 而 下 ”的 建设 
方法 是 先 建立 一 个 企业 级 数据 仓库 ,然后 再 在 其 基础 上 建立 部 门 级 数据 集 市 。 这 种 建设 方 
法 的 优势 在 于 有 利于 各 级 数据 仓库 的 一 致 性 的 控制 ,缺点 是 企业 级 数据 仓库 的 规模 往往 比 
较 大 ,实施 周期 很 长 ,而 且 , 这 种 方法 见效 慢 , 费 用 昂贵 。“ 自 底 向 上 ”的 建设 方法 是 在 充分 考 
虑 扩展 的 前 提 下 ,优先 建立 一 些 数据 集 市 ,最 后 再 把 它们 汇集 成 一 个 企业 级 数据 仓库 ,这 种 
方法 的 优势 在 于 针对 性 强 , 易 于 实现 ,花费 小 ,见效 快 。 缺 点 是 对 多 个 数据 集 市 进行 汇集 会 
面临 集成 困难 和 数据 质量 问题 。 因 此 ,在 数据 仓库 建立 过 程 中 ,企业 应 当 依据 自己 的 实际 情 
况 , 灵 活 地 选择 适合 的 方法 来 建立 数据 仓库 。 


4. 元 数据 


元 数据 是 关于 数据 的 数据 , 它 不 仅 表示 数据 的 类 型 .名 称 、 值 等 信息 ,还 提供 了 数据 的 上 
下 文 描述 信息 ,如 数据 的 所 属 区 域 、 取 值 范 围 数据 间 的 关系 、 业 务 规则 ,甚至 是 数据 的 来 源 。 
在 数据 仓库 领域 ,元 数据 记录 着 源 数 据 库 与 目标 数据 仓库 的 数据 模型 物理 数据 结构 及 其 相 
关 匹 配 模式 等 重要 信息 。 
元 数据 贯穿 于 数据 仓库 的 设计 、 开 发 .运行 和 维护 的 全 过 程 ,其 设计 是 数据 仓库 系统 设 
计 完 善 与 否 的 标志 。 具 体 表 现在 以 下 两 个 方面 : 
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(1) 对 于 设计 人 员 来 讲 , 元 数据 是 新 一 轮 迭 代 开 发 和 数据 仓库 维护 的 主要 技术 手册 ,也 
是 进行 系统 集成 的 基础 。 另 外 ,由 于 元 数据 提供 了 企业 业务 模型 和 数据 模型 的 存储 地 点 和 
格式 ,系统 的 工作 流 .数据 流 、 信 息 流 完全 可 以 保存 在 元 数据 库 中 ,管理 员 能 够 方便 地 依据 元 
数据 扩展 现 有 的 信息 系统 。 

(2) 对 于 最 终 用 户 来 讲 , 元 数据 就 如 同 数据 仓库 的 导航 器 ,能 帮助 用 户 快速 ,高效 地 定 
位 信息 ,实现 数据 检索 和 数据 挖掘 , 极 大 地 提高 了 用 户 的 工作 效率 。 另 外 ,元 数据 还 实现 了 
业务 模型 和 数据 模型 之 间 的 映射 ,使 数据 能 够 以 用 户 期 望 的 样子 表现 出 来 。 


1.4.3 OLAP 服务 器 


OLAP 服务 器 利用 数据 仓库 中 的 数据 将 数据 组 织 成 多 维 数据 集 , 即 数据 立方 体 的 形 
式 。 数 据 立方 体 是 OLAP 分 析 处 理 的 核心 ,因为 最 终 获得 的 分 析 结果 都 是 对 数据 立方 体 进 
行 各 种 操作 得 来 的 ,所 以 它 的 结构 直接 决定 了 数据 仓库 系统 能 够 进行 什么 样 的 多 维 分 析 ,能 
从 哪些 维度 进行 查询 和 分 析 等 重要 功能 。 

OLAP 服务 器 对 分 析 需 要 的 数据 进行 有 效 集成 , 按 多 维 模型 予以 组 织 , 以 便 进行 多 角 
度 、 多 层次 的 分 析 , 并 发 现 趋势 。 其 具体 实现 可 以 分 为 ROLAP、MOLAP 和 HOLAP。 
ROLAP 基本 数据 和 聚合 数据 均 存 放 在 RDBMS 之 中 ; MOLAP 基本 数据 和 聚合 数据 均 存 
放 于 多 维 数据 库 中 ; HOLAP 基本 数据 存放 于 RDBMS 之 中 ,聚合 数据 存放 于 多 维 数据 
库 中 。 


1.4.4 前端 工具 


从 数据 源 中 抽取 出 相应 的 数据 ,经 过 检验 ,整理 .加工 和 重新 组 织 后 存放 到 数据 仓库 的 
数据 库 中 ,下 一 步 就 是 要 考虑 如 何 使 用 户 ( 业 务 决策 人 员 、 各 级 管理 人 员 和 业务 分 析 人 员 ) 能 
够 方便 灵活 的 使 用 数据 仓库 中 存储 的 数据 ,达到 数据 仓库 工程 的 预定 目标 。 在 数据 仓库 中 ， 
这 是 通过 为 用 户 提供 一 套 前 端 数据 访问 和 分 析 工 具 来 实现 的 。 这 些 工 具 主 要 包括 各 种 报表 
工具 ,查询 工具 数据 分 析 工 具 、 数 据 挖掘 工具 以 及 各 种 基于 数据 仓库 或 数据 集 市 的 应 用 开 
发 工具 。 其 中 数据 分 析 工 具 主 要 针对 OLAP 服务 器 ,报表 工具 、 数 据 挖掘 工具 主要 针对 数 
据 仓库 。 

前 端 展示 工具 将 OLAP 服务 器 处 理 的 结果 以 用 户 希 望 的 方式 展示 给 用 户 。 它 不 但 提 
供 一 般 的 数据 访问 功能 ,如 查询 汇总、 统计 等 ,还 要 提供 对 数据 的 深入 分 析 功 能 ,如 数据 的 
比较 ,趋势 分 析 、 模 式 识别 等 , 即 所 谓 的 “数据 挖掘 ?功能 ,并 从 中 获得 一 些 潜在 的 规律 。 

前 端 展示 工具 主要 有 三 类 : 查询 型 工具 、 验 证 型 工具 和 发 掘 型 工具 。 


1. 查询 型 工具 


数据 仓库 查询 型 工具 主要 是 指 将 数据 直接 ( 即 无 须 经 过 复杂 的 分 析 算 法 处 理 ) 呈 现 给 用 
户 的 工具 。 它 既 可 以 对 数据 仓库 中 记录 级 数据 进行 查询 ,也 可 以 对 分 析 结 果 ( 发 展 趋势 或 模 
式 总 结 ) 进 行 查询 。 其 目标 在 于 使 用 户 能 够 方便 直观 地 提出 查询 要 求 ,数据 以 友好 清晰 的 方 
式 呈 现 出 来 ,从 而 帮助 用 户 实现 对 数据 仓库 的 “阅览 ”。 查 询 型 工具 可 以 与 分 析 型 工具 结合 
起 来 实现 诸如 原因 分 析 、 目 标 探 察 等 分 析 任 务 。 
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2. 验证 型 工具 


用 户 开始 提出 自己 的 假设 ,随后 利用 各 种 工具 逐步 地 检索 查询 以 验证 或 者 否定 自己 的 
假设 。 从 使 用 者 的 观点 来 看 ,是 从 数据 仓库 中 发 现 事实 。 这 方面 的 工具 主要 包括 : 可 视 化 
工具 和 多 维 分 析 工 具 。 可 视 化 工具 以 图 形 化 方式 展示 数据 ,充分 利用 人 类 的 视觉 能 力 , 方 便 
地 发 掘 数据 间 的 潜在 关系 。 通 过 可 视 化 工具 ,人 们 可 以 深入 到 数据 的 结构 中 ,了 解数 据 的 复 
杂 性 和 动态 性 。 多 维 分 析 工 具 通过 对 信息 的 多 种 可 能 的 观察 形式 进行 快速 ,一 致 和 交互 性 
地 存 取 , 从 而 使 分 析 员 经理 和 行政 人 员 对 数据 进行 深入 地 分 析 和 观察 ,实现 联机 分 析 处 理 。 
这 两 个 工具 有 一 个 共同 的 特点 : 需要 用 户 指导 数据 分 析 的 全 过 程 。 


3. 发 气 型 工具 


发 掘 型 工具 负责 从 大 量 数据 里 发 现 数据 模式 、 预 测 趋势 和 行为 。 与 验证 型 工具 的 区 别 
在 于 : 用 户 对 整个 信息 的 挖掘 过 程 中 无 需 或 只 需 很 少 的 指导 。 发 掘 型 工具 主要 指 的 是 数据 
挖 气 (DM) , 即 按照 既定 的 业务 目标 ,对 大 量 的 有 关 数 据 进行 探索 、 揭 示 隐 藏 其 中 的 规律 性 
并 进一步 将 之 模型 化 的 先进 有 效 的 方法 。 数 据 挖掘 是 一 种 展望 和 预测 型 的 工具 , 它 能 发 握 
数据 间 潜 在 的 模式 ,发 现 人 们 可 能 忽略 的 信息 ,并 为 企业 做 出 基于 知识 的 决策 。 与 验证 型 工 
具 一 样 ,数据 挖掘 也 需要 将 获取 的 信息 利用 可 视 化 工具 进行 加 工 , 以 用 户 理解 和 观察 的 方式 
反映 给 用 户 。 

查询 型 工具 、 分 析 型 工具 和 挖掘 型 工具 结合 在 一 起 构成 了 数据 仓库 系统 的 工具 层 ,它们 
各 自 的 侧重 点 不 同 ,因此 适用 范围 和 针对 的 用 户 也 不 相同 。 只 有 具备 了 上 述 三 种 工具 的 数 
据 仓 库 系统 ,才能 真正 发 挥 数据 仓库 的 作用 。 


1.5 数据 挖掘 技术 概述 


随 着 数据 库 技术 的 迅速 发 展 和 数据 管理 系统 的 普遍 推广 ,企业 积累 的 数据 呈 几 何 级 数 
增长 。 这 些 剧 增 的 数据 中 可 能 隐藏 着 很 多 重要 的 信息 ,人 们 和 希望 能 够 对 现 有 的 信息 进行 更 
高 层次 的 分 析 , 以 便 更 好 地 利用 这 些 数 据 。 这 些 迫切 的 需求 促进 了 数据 挖掘 技术 的 产生 。 
另 一 方面 ,计算 机 及 其 相关 技术 的 快速 发 展 为 数据 挖掘 提供 了 研究 和 应 用 的 技术 基础 。 


1.5.1 数据 挖掘 技术 产生 的 背景 


数据 挖掘 是 一 门 交 又 性 学 科 , 它 涉及 人 工 智 能 、 数 据 库 技术 、 机 器 学 习 、 模 式 识别 ,信息 
学 ,信息 检索 、 统 计 学 等 多 个 领域 。 在 对 数据 库 技术 研究 的 历程 中 ,相继 出 现 了 一 些 相 似 的 
术语 ,例如 数据 库 中 的 知识 发 现 (Knowledge Discovery in Database, KDD) .数据 融合 (data 
fusion) 等 。KDD 是 1989 年 8 月 在 美国 底特律 召开 的 第 11 届 国 际 人 工 智能 联合 会 议 的 专 
题 讨 论 会 上 首次 提出 的 。KDD 是 从 大 量 数 据 集中 识别 出 有 效 的 、 新 颖 的 、 潜 在 有 用 的 以 及 
最 终 可 理解 模式 的 高 级 处 理 过 程 。 在 KDD 处 理 过 程 中 ,首先 需要 了 解 领域 的 背景 知识 ,分 
析 相 关 数 据 或 样本 ,检验 数据 的 完整 性 和 一 致 性 ,去 除 与 挖掘 无 关 的 数据 ;然后 要 选择 合适 
的 知识 发 现 算法 完成 KDD 目标 ,挖掘 出 用 户 所 需要 的 知识 ;最 后 要 对 挖掘 出 的 知识 进行 解 
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释 , 并 提供 给 用 户 并 进行 正确 的 评价 。 

数据 挖掘 的 概念 是 1995 年 在 美国 计算 机 年 会 ACM 会 议 上 首次 被 提出 的 。 数 据 挖掘 
又 称 KDD, 是 指 从 大 型 数据 库 或 数据 仓库 中 提取 隐 含 的 .未 知 的 、 非 平凡 的 及 有 潜在 应 用 价 
值 的 信息 或 模式 , 它 是 数据 库 研究 中 的 一 个 很 有 应 用 价值 的 新 领域 ,融合 了 数据 库 `、 人 工 智 
能 、 机 器 学 习 、 统 计 学 等 多 个 领域 的 理论 和 技术 。 

随 着 Internet 的 迅速 发 展 , Web 上 的 信息 以 惊人 的 速度 在 增长 。Web 上 的 信息 资源 具 
有 海量 分布、 动态 . 异 质 等 特点 。 我 们 将 传统 的 数据 挖掘 思想 和 方法 应 用 到 Web 数据 , 形 
成 了 Web 数据 挖掘 这 样 一 个 新 的 研究 方向 。Web 数据 挖掘 是 以 从 Web 上 挖掘 有 用 知识 为 
目标 , 它 将 传统 的 数据 挖掘 技术 与 Web 结合 起 来 ,利用 数据 挖掘 技术 从 Web 文档 和 Web 
活动 中 发 现 有 效 的 .新 颖 的 、 潜 在 有 用 的 ,并 且 最 终 可 理解 的 信息 和 模式 。 按 照 挖 掘 对 象 的 
不 同 , 将 Web 数据 挖掘 分 为 三 类 : Web 内 容 挖掘 (Web content mining), Web 结构 挖掘 
(Web structure Mining), Web 使 用 挖掘 (Web usage mining) ,其 中 最 有 意义 的 部 分 应 在 使 
用 挖掘 ,因为 它 同 客户 行为 密切 相关 。 

归纳 数据 挖掘 产生 的 技术 背景 ,为 下 面 一 些 相关 技术 的 发 展 起 到 了 决定 性 的 作用 。 

(1) 数据 库 .数据 仓库 和 Internet 等 信息 技术 的 发 展 。 

(2) 计算 机 性 能 的 提高 和 先进 的 体系 结构 的 发 展 。 

(3) 统计 学 和 人 工 智能 等 方法 在 数据 分 析 中 的 研究 和 应 用 。 

数据 挖掘 是 近年 来 十 分 热门 的 研究 领域 ,尤其 是 Web 数据 挖掘 的 研究 拓展 了 这 一 领域 
的 深度 和 广度 。 新 的 数据 挖掘 方法 不 断 问世 ,应 用 于 企业 的 数据 挖掘 工具 也 不 断 产生 和 完 
善 。 尽 管 数 据 挖掘 技术 仍 面临 着 很 大 的 挑战 ,许多 问题 有 待 于 进一步 探索 ,但 有 一 点 垢 庸 置 
疑 , 那 就 是 数据 挖掘 的 研究 和 应 用 产生 了 巨大 的 社会 效益 和 经 济 效益 ,为 信息 社会 的 发 展 做 
出 了 贡献 。 


1.5.2 数据 挖掘 的 基本 概念 


数据 挖掘 是 指 从 数据 库 的 大 量 数据 中 提取 隐 含 的 .先前 未 知 的 并 有 潜在 价值 的 信息 和 
知识 的 过 程 。 数 据 挖掘 的 定义 有 很 多 ,表达 方式 虽然 不 同 ,但 本 质 都 是 一 样 的 。 下 面 主要 从 
技术 角度 和 商业 角度 给 出 数据 挖掘 的 定义 。 


1. 数据 挖掘 的 技术 定义 


从 技术 角度 看 ,数据 挖掘 是 从 大 量 的 ,不 完全 的 \ 有 噪声 的 、 模 糊 的 、 随 机 的 实际 数据 中 ， 
提取 隐 含 在 其 中 的 .人们 不 知道 的 ,但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 

人 们 将 数据 看 做 形成 知识 的 源泉 ,好 像 从 含 金 的 大 量 矿石 中 淘金 一 样 。 原 始 数据 可 以 
是 结构 化 的 ,如 关系 数据 库 中 的 数据 ;也 可 以 是 半 结 构 化 的 ,如 文本 、 图 形 和 图 像 数 据 ;其 至 
是 分 布 在 网 络 上 的 异 构 数据 。 发 现 知识 的 方法 可 以 是 数学 的 ,也 可 以 是 非 数学 的 ;可 以 是 演 
绎 的 ,也 可 以 是 归纳 的 。 发 现 的 知识 可 以 用 于 信息 管理 ,查询 优化 ,决策 支持 和 过 程控 制 等 。 
因此 ,数据 挖掘 是 一 门 交 叉 学 科 , 它 把 人 们 对 数据 的 应 用 从 低层 次 的 简单 查询 ,提升 到 从 数 
据 库 中 挖掘 知识 ,提供 决策 支持 。 在 这 种 需求 的 推动 下 ,汇集 了 不 同 领域 的 研究 者 ,尤其 是 
数据 库 技术 、 人 工 智 能 技术 、 数 理 统计 、 可 视 化 技术 、 并 行 计算 等 方面 的 学 者 和 工程 技术 人 
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员 ,投身 到 数据 挖掘 这 一 新 兴 的 研究 领域 ,形成 新 的 技术 研究 和 开发 热点 。 
2. 数据 挖掘 的 商业 定义 


从 商业 应 用 角度 看 ,数据 挖 握 是 一 种 声 新 的 商业 信息 处 理 技 术 。 其 主要 特点 是 对 商业 
数据 库 中 大 量 业 务 数据 进行 抽取 、 转 化 、 分 析 和 模式 化 处 理 ,从 中 提取 辅助 商业 决策 的 关键 
知识 , 即 从 一 个 数据 库 中 自动 发 现 相关 商业 模式 。 

数据 挖掘 是 利用 统计 学 和 机 器 学 习 的 技术 ,探求 那些 符合 市 场 、 客 户 行为 的 模式 。 目 
前 ,数据 挖掘 已 经 可 使 挖掘 技术 自动 化 ,将 数据 挖掘 和 商业 数据 仓库 相 结合 ,以 适当 的 形式 
将 挖掘 结果 展示 给 企业 经 营 管理 人 员 。 对 于 数据 挖掘 的 应 用 不 仅 依靠 良好 的 算法 建立 模 
型 ,而 更 重要 的 是 要 解决 如 何 将 数据 挖掘 技术 集成 到 当今 复杂 的 信息 技术 应 用 环境 中 。 其 
次 ,还 要 有 数据 挖掘 分 析 人 员 的 参与 ,因为 数据 挖掘 技术 不 具备 人 所 特有 的 经 验 和 直觉 ,不 
能 区 分 哪些 挖掘 出 的 模式 在 现实 中 是 有 意义 的 ,哪些 是 没有 意义 的 。 因 此 ,数据 挖掘 分 析 人 
员 的 参与 是 必 不 可 少 的 。 


1.5.3 数据 挖掘 的 对 象 


形成 知识 的 源泉 是 大 型 数据 库 与 数据 仓库 。 原 始 数 据 有 时 是 结构 化 的 (关系 数据 库 中 
的 数据 ), 有 时 是 半 结 构 化 的 (图 像 数据 ,文本 与 图 形 ), 有 时 还 是 WWW 上 的 异 构 型 的 。 一 
般 情况 下 ,数据 挖掘 对 象 可 以 是 存储 的 任何 类 型 的 信息 ,如 关系 数据 库 、 数 据 仓库 、 事 务 数据 
库 、 万 维 网 、 面 向 对 象 数 据 库 、 对 象 关系 数据 库 、 时 间 序 列 数据 库 、 空 间 数 据 库 、 文 本 数据 库 、 
多 媒体 数据 库 等 。 


1. 关系 数据 库 


关系 数据 库 因 为 具有 坚实 的 数据 基础 .统一 的 组 织 结构 、 完 整 的 规范 化 理论 一体 化 的 
查询 语言 等 优点 ,成 为 当前 数据 挖掘 最 重要 、 最 流行 ,也 是 信息 最 丰富 的 数据 源 ,并 且 也 是 人 
们 对 数据 挖掘 研究 的 主要 形式 之 一 。 


2. 数据 仓库 


数据 仓库 是 数据 库 技术 发 展 的 高 级 阶段 , 它 是 面向 主题 的 、 集 成 的 .内 容 相 对 稳定 的 、 随 
时 间 变 化 的 数据 集合 ,可 以 用 来 支持 管理 决策 的 制定 过 程 。 数 据 仓 库 系统 允许 将 各 种 应 用 
系统 、 多 个 数据 集成 在 一 起 ,为 统一 的 历史 数据 分 析 提 供 坚 实 的 平台 。 

数据 挖掘 需要 有 良好 的 数据 组 织 和 ”纯净 ”的 数据 ,数据 的 质量 直接 影响 到 数据 挖掘 的 
效果 ,而 数据 仓库 的 特点 恰恰 最 符合 数据 挖掘 的 要 求 , 它 从 各 类 数据 源 中 抓 取 数 据 ,经 过 清 
洗 、 集 成 .选择 .转换 等 处 理 ,为 数据 挖掘 所 需要 的 高 质量 的 数据 提供 了 保证 。 可 以 说 ,数据 
挖掘 为 数据 仓库 提供 了 有 效 的 分 析 处 理 手 段 ,数据 仓库 为 数据 挖掘 准备 了 良好 的 数据 源 。 
因此 , 随 着 数据 仓库 与 数据 挖掘 的 协调 发 展 , 数 据 仓 库 必然 成 为 数据 挖掘 的 最 佳 环境 。 


3. 文本 数据 库 


文本 数据 库 所 记载 的 内 容 均 为 文字 ,这 些 文字 并 不 是 简单 的 关键 词 ,而 是 长 句子 .段落 
守 和 洛 


甚至 全 文 ,文本 数据 库 多 数 为 非 结 构 化 的 ,也 有 些 是 半 结 构 化 的 ,如 HTML、 E-mail 等 。 
Web 页 也 是 文本 信息 ,把 众多 的 Web 页 组 成 数据 库 就 是 最 大 的 文本 数据 库 。 如 果 文 本 数 
据 具 有 良好 的 结构 ,可 以 使 用 关系 数据 库 来 实现 。 


4. 复杂 类 型 数据 库 


复杂 类 型 的 数据 库 是 指 非 单纯 文本 的 数据 库 或 能 够 表示 动态 的 序列 数据 的 数据 库 , 主 
要 有 如 下 几 类 。 

(1) 空间 数据 库 。 主 要 指 存储 空间 信息 的 数据 库 , 其 中 数据 可 能 以 光栅 格式 提供 ,也 可 
能 用 矢量 图 形 数据 表示 。 例 如 ,地 理 信息 数据 库 . 卫 星 图 像 数据 库 ,城市 地 下 管道 .下 水 道 及 
各 类 地 下 建筑 分 布 数据 库 等 。 对 空间 数据 库 的 挖掘 可 以 为 城市 规划 .生态 规划 .道路 修建 提 
供 决策 支持 。 

(2) 时 序数 据 库 。 主 要 用 于 存放 与 时 间 相 关 的 数据 , 它 可 用 来 反映 随时 间 变 化 的 即时 
数据 或 不 同时 间 发 生 的 不 同事 件 。 例 如 ,连续 的 存放 即时 的 股票 交易 信息 .卫星 轨道 信息 
等 。 对 时 序数 据 的 挖掘 可 以 发 现 事件 的 发 展 趋势 .事物 的 演变 过 程 和 隐藏 特征 ,这些 信 息 将 
对 事件 的 计划 ,决策 和 预警 是 非常 有 用 的 。 

(3) 多 媒体 数据 库 。 用 于 存放 图 像 、 声 音 和 视频 信息 的 数据 库 。 由 于 多 媒体 技术 的 发 
展 ,以 及 相关 研究 (如 可 视 化 信息 检索 、 虚 拟 现实 技术 ) 的 成 就 ,多 媒体 数据 库 也 逐渐 普及 ,并 
应 用 于 许多 重要 研究 领域 。 目 前 ,多 媒体 数据 的 挖掘 主要 放 在 对 图 像 数 据 的 检索 与 匹配 上 ， 
随 着 研究 的 深入 将 会 拓展 到 对 声音 、 视 频 信 息 的 挖掘 处 理 。 


1.5.4 数据 挖掘 功能 


如 果 以 数据 挖掘 任务 为 标准 来 划分 ,数据 挖掘 功能 有 如 下 的 几 类 : 概念 描述 .关联 分 
析 、 分 类 和 预测 、 聚 类 分 析 、 孤 立 点 分 析 、 演 变 分 析 等 。 


1. 概念 描述 


概念 描述 (concept description) 指 的 是 对 某 种 对 象 的 内 涵 特 征 进行 概括 ,概括 就 是 概念 
描述 的 本 质 。 一 般 情况 下 ,对 一 个 数据 集 ,其 包含 大 量 数据 ,做 一 个 总 体 状 态 的 概述 就 是 一 
个 概念 。 例 如 ,将 某 一 公司 所 有 卖 出 的 汽车 的 基本 情况 进行 概述 与 总 结 ,就 会 了 解 到 所 有 汽 
车 基本 情况 的 一 个 整体 概念 。 

传统 的 也 是 最 简单 的 数据 总 结 方法 是 计算 出 数据 库 的 各 个 字段 上 的 汇总 值 平 均值 方 
差 值 等 统计 值 ,或 者 用 直方 图 、 饼 状 图 等 图 形 方式 表示 。 而 数据 挖掘 中 的 概念 描述 主要 关心 
从 数据 泛 化 的 角度 来 讨论 数据 总 结 。 数 据 泛 化 是 一 种 把 数据 库 中 的 有 关 数 据 从 低层 次 抽象 
到 高 层次 上 的 过 程 。 由 于 数据 库 上 的 数据 或 对 象 所 包含 的 信息 总 是 最 原始 .基本 的 信息 (这 
是 为 了 不 遗漏 任何 可 能 有 用 的 数据 信息 ), 人 们 有 时 和 希望 能 从 较 高 层次 的 视图 上 处 理 或 浏览 
数据 ,因此 ,需要 对 数据 进行 不 同 层次 上 的 泛 化 以 适应 各 种 查询 要 求 。 
描述 可 以 分 为 特征 性 的 描述 与 区 别 性 的 描述 。 前 者 描述 某 类 对 象 的 共同 特征 ,生成 一 
个 类 的 特征 性 描述 ,该 描述 只 涉及 该 类 对 象 中 所 有 个 体 的 共性 。 其 输出 可 以 采用 多 种 形式 ， 
包括 饼 图 .柱状 图 曲线、 多 维 数据 立方 体 、 含 交叉 表 的 多 维 表 , 且 描述 结果 也 可 以 用 概 化 关 
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系 或 规则 形式 表示 。 后 者 描述 异类 对 象 之 间 的 区 别 , 将 目标 类 对 象 的 一 般 特性 与 一 个 或 多 
个 对 比 类 对 象 的 一 般 特性 比较 ,而 这 种 比较 必须 具备 可 比 性 的 两 个 或 多 个 类 之 间 进 行 的 。 
数据 区 分 的 输出 类 似 于 数据 特征 化 ,但 它 应 该 包括 比较 度量 ,帮助 区 分 目标 类 和 对 比 类 。 


2. 关联 分 析 


关联 分 析 (association analysis) 用 于 发 现 关联 规则 ,这 些 规则 展示 属性 值 频 繁 地 在 给 定 
数据 集中 一 起 出 现 的 条 件 。 例 如 ,两 个 或 多 个 数据 项 的 取 值 之 间 重 复出 现 且 概率 很 高 时 ,就 
存在 某 种 关联 ,可 以 建立 起 这 些 数据 项 的 关联 规则 。 随 着 大 量 数 据 不 停 地 收集 和 存储 ,许多 
业界 人 士 对 于 从 他 们 的 数据 库 中 挖掘 关联 规则 越 来 越 感 兴趣 。 从 海量 的 商务 事务 记录 中 发 
现 有 趣 的 关联 关系 ,可 以 帮助 许多 商务 决策 的 制定 。 

关联 规则 反映 一 个 事务 与 其 他 事务 之 间 的 相互 依存 性 和 关联 性 。 关 联 规 则 挖掘 是 数据 
挖掘 研究 的 一 个 重要 分 支 。 该 问题 于 1993 年 由 Agrawal 等 在 对 市 场 购物 篮 问 题 进行 分 析 
时 首次 提出 用 以 发 现 商 品 销售 中 的 顾客 购买 模式 ,以 后 诸多 的 研究 人 员 对 关联 规则 的 挖掘 
问题 进行 了 大 量 的 研究 。 他 们 的 工作 包括 对 原 有 的 算法 进行 优化 ,如 引入 随机 采样 .并行 的 
思想 等 ,以 提高 算法 挖掘 规则 的 效率 。 

挖掘 关联 规则 就 是 发 现存 在 于 大 数据 集中 的 关联 性 或 相关 性 , 即 发 现 某 些 经 常 在 一 起 
出 现 的 属性 (谓词 或 项 ) 并 以 规则 的 形式 把 它们 之 间 的 关系 符号 化 。 例 如 , 某 超市 利用 数据 
挖掘 在 销售 数据 库 中 发 现 一 条 隐 含 规则 :小孩 尿 布 与 啤酒 有 这 样 的 关联 规则 的 在 所 有 销售 
记录 中 ,有 20% 的 记录 同时 包含 小 孩 尿布 和 啤酒 ,包含 小 孩 尿 布 的 记录 中 有 80% 的 记录 也 
包含 啤酒 。 

实际 应 用 中 此 关联 规则 很 有 价值 ,上 例 这 条 关联 规则 就 揭示 出 这 样 一 条 商业 信息 :在 购 
买 小 孩 尿布 的 顾客 中 ,有 80% 的 人 同时 购买 了 啤酒 。 商 场 管 理 人 员 可 以 根据 这 个 信息 更 好 
地 规划 商场 ,如 把 小 孩 尿 布 和 啤酒 这 样 的 商品 摆 放 在 一 起 ,能 够 促进 销售 。 同 理 , 对 CRM 
系统 中 的 有 关 数 据 进行 关联 规则 挖掘 ,也 可 能 发 现 一 些 出 乎 意料 的 潜在 客户 信息 。 


3. 分 类 和 预测 


分 类 (classification) 知 识 发 现 是 数据 挖掘 中 最 常见 的 , 旨 在 根据 样本 数据 寻求 相应 的 分 
类 规则 ,然后 根据 该 规则 来 确定 某 一 非 样本 个 体 或 对 象 是 否 属于 某 一 特定 的 组 或 类 。 在 这 
种 分 类 知识 发 现 中 ,样本 个 体 或 对 象 的 类 标记 是 已 知 的 。 数 据 挖掘 的 任务 在 于 从 样本 数据 
的 属性 中 发 现 个 体 或 对 象 分 类 的 一 般 规 则 ,从 而 根据 该 规则 对 非 样 本 数据 对 象 进行 分 类 。 
如 决策 树 分 类 方法 、 贝 叶 斯 分 类 方法 、 规 则 归纳 等 。 

分 类 通常 和 预测 (predication) 联 系 起 来 ,这 是 因为 分 类 可 以 用 来 预测 数据 对 象 的 类 标 
记 , 也 可 以 用 来 预测 某 些 空缺 的 或 不 知道 的 数据 值 , 当 被 预测 的 值 是 数值 数据 时 ,通常 称 之 
为 预测 。 


4. 聚 类 分 析 


聚 类 分 析 (clustering analysis) 用 于 发 现在 数据 库 中 未 知 的 数据 类 。 这 种 数据 类 划分 的 
依据 是 “ 物 以 类 聚 ”, 即 考察 个 体 或 对 象 间 的 相似 性 ,满足 相似 性 条 件 的 个 体 或 数据 对 象 划分 
i 有 


在 一 组 内 ,不 满足 相似 性 条 件 的 个 体 或 数据 对 象 划分 在 不 同 的 组 。 由 于 在 数据 挖掘 之 前 , 数 
据 类 划分 的 数量 与 类 型 均 是 未 知 的 ,因此 在 数据 挖掘 后 需要 对 数据 挖掘 结果 进行 合理 的 分 
析 与 解释 。 

聚 类 是 无 监督 学 习 的 典型 方法 ,类 的 个 数 事先 是 不 知道 的 ,形成 的 类 的 物理 意义 也 需要 
专业 人 士 做 出 分 析 。 聚 类 指 的 是 把 对 象 数据 分 组 成 多 个 类 或 复 , 令 生成 的 类 的 内 部 的 任意 
2 个 项 目 之 间 具 有 的 相似 度 很 高 ,而 属于 不 同类 的 两 个 项 目 之 间 的 相 异 度 也 要 很 高 。 主 要 
的 聚 类 方法 有 : 划分 的 ` 层 次 的 .基于 密度 的 .基于 网 格 的 与 基于 模型 的 等 。 聚 类 技术 一 般 
情况 上 ,是 以 统计 方法 、 机 器 学 习 、 神 经 网 络 等 方法 作为 其 理论 基础 。 


5. 孤立 点 分 析 


孤立 点 分 析 (outlier analysis) 是 分 类 预测 和 聚 类 分 析 的 副产品 。 孤 立 点 是 指 与 数据 的 
一 般 行为 或 模型 不 一 致 的 那些 数据 对 象 。 一 般 情 况 下 ,很 多 的 数据 挖掘 方法 会 把 孤立 点 作 
为 噪声 或 异常 数据 ,将 其 忽略 或 删除 。 但 在 网 络 人 侵 检 测 ,信用 卡 欺 骗 检 测 等 实际 应 用 中 ， 
这 些 数据 是 十 分 有 参考 价值 的 。 主 要 的 检测 技术 有 基于 统计 的 孤立 点 检测 、 基 于 距离 的 孤 
立 点 检测 与 基于 偏差 的 孤立 点 检测 这 三 类 。 孤 立 点 分 析 主 要 应 用 在 包括 入 侵 检测 、 离 群 值 
发 现 、 网 络 攻 击 ,疾病 的 不 寻常 模式 、 生 态 系 统 扰动 等 。 


6. 演变 分 析 


数据 的 时 序 演变 分 析 (evolution analysis) 是 针对 事件 或 对 象 行为 随时 间 变 化 的 规律 或 
趋势 ,并 以 此 来 建立 模型 。 它 主要 包括 时 间 序 列 数据 分 析 ,序列 或 周期 模式 匹配 和 基于 类 似 
性 的 数据 分 析 。 


7. 信息 摘要 


信息 摘要 (information summarization) 是 一 种 自动 编制 文摘 的 技术 , 即 利用 计算 机 将 一 
篇 文章 浓缩 成 一 篇 短文 的 过 程 。 文 摘 是 以 简洁 的 篇 幅 , 忠 实地 反映 原文 内 容 的 一 段 简 短文 
字 。 通 过 阅读 文摘 ,人 们 可 以 快速 地 掌握 大 量 文献 的 基本 内 容 , 提 高 获取 信息 的 效率 。 但 
是 ,文献 数量 的 飞速 增长 ,使 得 人 工 来 编制 所 有 文摘 的 工作 已 不 现实 。 因 此 ,利用 计算 机 来 
自动 编制 文摘 便 成 为 一 个 有 现实 意义 的 研究 课题 。 


8. 信息 抽取 


信息 抽取 (information extraction) 就 是 根据 一 个 事先 定义 好 的 、 描 述 所 需 信息 规格 的 
模板 ,从 非 结 构 化 的 文本 中 抽取 相关 信息 的 过 程 。 这 个 模板 通常 说 明了 某 些 事件 .实体 或 关 
系 的 类 型 。 

信息 抽取 可 以 帮助 人 们 快速 地 获取 文本 中 有 用 的 信息 。 在 大 量 的 非 结 构 化 或 半 结 构 化 
的 文本 数据 中 ,包含 了 很 多 的 无 用 和 宛 余 的 信息 ,同时 也 包含 了 很 多 可 以 用 结构 化 形式 表示 
的 数据 信息 。 比 如 公式 、 某 个 重要 的 数据 、 各 种 名 称 、 概 念 等 。 从 文本 中 提取 这 些 信息 ,然后 
根据 它们 之 间 的 关系 ,组 织 抽 取信 息 的 结构 ,可 以 从 特定 的 角度 提供 对 于 文本 数据 的 概览 。 
例如 , 某 个 银行 收 到 客户 一 份 要 求 进行 转账 的 电子 邮件 。 银 行 可 以 利用 信息 抽取 程序 ,根据 
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预先 定义 的 交易 信息 抽取 模板 对 该 邮件 进行 自动 处 理 ,抽取 邮件 中 的 交易 类 型 .交易 日 期 、 
客户 名 ,交易 金额 货币 种 类 以 及 利率 等 交易 信息 ,然后 转换 为 数据 库 记 录 , 便 于 以 后 的 
处 理 。 


9. 元 数据 挖掘 


元 数据 挖掘 (metadata mining) 是 指 对 元 数据 进行 的 挖掘 。 例 如 ,对 文本 元 数据 的 控 
据 。 文 本 元 数据 可 以 分 为 两 类 : 一 类 是 描述 性 元 数据 ,包括 文本 的 名 称 . 日 期 ,大 小 ,类 型 等 
信息 ; 另 一 类 是 语义 性 元 数据 ,包括 文本 的 作者 标题. 机构、 内 容 等 信息 。 文 本 的 元 数据 挖 
据 对 于 更 深层 次 的 文本 挖 据 来 说 ,是 一 个 重要 的 基础 性 的 工作 , 它 可 以 为 进一步 的 文本 挖掘 
提供 有 价值 的 参考 信息 。 

还 有 对 于 Web 站 点 结构 等 非 内 容 性 信息 的 数据 挖掘 。 与 其 他 数据 挖掘 不 同 ,针对 超级 
链接 和 Web 使 用 记录 的 挖掘 不 是 一 种 内 容 性 的 挖掘 ,而 是 面向 元 数据 的 挖掘 ,然而 这 种 控 
掘 无 疑 是 十 分 有 意义 的 。 超 级 链接 挖掘 可 以 分 析 Web 站 点 的 结构 、 建 立 Web 信息 的 层次 
化 视图 .识别 权威 的 Web 页 面 , 从 而 提高 Web 搜索 引擎 的 质量 。 对 于 Web 访问 记录 的 挖 
据 , 可 以 发 现 用 户 访问 Web 页 面 的 模式 ,从 而 识别 电子 商务 的 潜在 客户 ,增强 对 最 终 用 户 的 
互联 网 信息 服务 的 质量 和 缴 付 ,并 改进 Web 服务 器 系统 的 性 能 。 

元 数据 挖掘 正在 成 为 一 个 新 兴 的 , 引 人 注 目的 研究 领域 。 


1.5.5 数据 挖掘 与 传统 分 析 方 法 的 区 别 


数据 挖掘 与 传统 的 数据 分 析 ( 如 查询 报表、 联机 分 析 ) 的 本 质 区 别 是 数据 挖掘 是 在 没有 
明确 假设 的 前 提 下 去 挖掘 信息 、 发 现 知识 。 数 据 挖掘 所 得 到 的 信息 应 具有 先前 未 知 、 有 效 和 
实用 三 个 特征 。 

先前 未 知 的 信息 是 指 该 信息 是 预先 未 曾 预料 到 的 , 即 数据 挖掘 是 要 发 现 那些 不 能 靠 直 
觉 发 现 的 信息 或 知识 ,甚至 是 违背 直觉 的 信息 或 知识 ,挖掘 出 的 信息 越 是 出 乎 意料 ,就 可 能 
越 有 价值 。 在 商业 应 用 中 最 典型 的 例子 就 是 一 家 连锁 店 通过 数据 挖掘 发 现 了 小 孩 尿 布 和 啤 
酒 之 间 有 着 惊人 的 联系 。 


1.5.6 数据 仓库 与 数据 挖掘 的 关系 


数据 挖掘 和 数据 仓库 作为 决策 支持 新 技术 , 近 十 年 来 发 展 迅速 。 数 据 仓 库 和 数据 挖掘 
二 者 既 相互 结合 、 共 同 发 展 ,又 相互 影响 、 相 互 促进 。 二 者 的 联系 概括 如 下 。 


1. 数据 仓库 为 数据 挖掘 提供 了 更 好 更 广泛 的 数据 源 


数据 仓库 中 存储 着 来 自 异 质 的 信息 源 的 集成 数据 ,而 这 些 信息 源 本 身 就 可 能 是 一 个 规 
模 庞 大 的 数据 库 。 同 时 数据 仓库 存储 了 大 量 长 时 间 的 历史 数据 ,这 可 以 进行 数据 长 期 趋势 
的 分 析 ,为 决策 者 的 长 期 决策 行为 提供 了 支持 。 


2. 数据 仓库 为 数据 挖掘 提供 了 新 的 支持 平台 


数据 仓库 的 发 展 不 仅 为 数据 挖掘 开辟 了 新 的 空间 ,更 对 数据 挖掘 技术 提出 了 更 高 的 要 
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求 。 作 为 数据 挖掘 对 象 ,数据 仓库 技术 的 产生 和 发 展 为 数据 挖掘 技术 开辟 了 新 的 战场 ,提出 
了 新 要 求 和 挑战 。 数 据 仓 库 的 体系 结构 努力 保证 查询 和 分 析 的 实时 性 。 数 据 仓 库 一 般 设 计 
成 只 读 方式 ,数据 仓库 的 更 新 由 专门 一 套 机 制 保证 ,数据 仓库 对 查询 的 强大 支持 使 数据 挖掘 
效率 更 高 。 


3. 数据 仓库 为 更 好 地 使 用 数据 挖掘 工具 提供 了 方便 


数据 仓库 的 建立 ,充分 考虑 数据 挖掘 的 要 求 。 用 户 可 以 通过 数据 仓库 服务 器 得 到 所 需 
的 数据 ,形成 开采 中 间 数 据 库 ,利用 数据 挖 握 方法 进行 开采 ,获得 知识 。 数 据 仓 库 为 数据 挖 
据 集 成 了 企业 内 各 部 门 的 全 面 的 、 综 合 的 数据 ,数据 挖掘 要 面 对 的 是 关系 更 复杂 的 企业 全 局 
模式 的 知识 发 现 。 而 且 ,数据 仓库 机 制 大 大 降低 了 数据 挖掘 的 障碍 ,一 般 进 行 数据 挖掘 要 花 
大 量 的 精力 在 数据 准备 阶段 : 数据 仓库 中 的 数据 已 经 被 充分 收集 起 来 ,进行 了 整理 ,合并 ， 
并 且 有 些 还 进行 了 初步 的 分 析 处 理 。 这 样 , 数 据 挖掘 的 注意 力 能 够 更 集中 于 核心 处 理 阶 段 。 
另外 ,数据 仓库 中 对 数据 不 同 粒度 的 集成 和 综合 ,更 有 效 地 支持 广 多 层次 、 多 种 知识 的 开采 。 


4. 数据 挖掘 为 数据 仓库 提供 了 更 好 的 决策 支持 


企业 领导 的 决策 要 求 系统 能 够 提供 更 高 层次 的 决策 辅助 信息 ,而 基于 数据 仓库 的 数据 
挖掘 能 更 好 地 满足 高 层 战 略 决策 的 要 求 。 数 据 挖掘 对 数据 仓库 中 的 数据 进行 模式 抽取 和 发 
现 知 识 , 从 数据 仓库 中 揭示 出 对 企业 有 潜在 价值 的 规律 知识 ,形成 知识 发 现 ,为 知识 管理 提 
供 了 内 容 , 在 知识 管理 中 起 到 中 流 碟 柱 的 作用 。 这 些 正 是 数据 仓库 所 不 能 提供 的 。 


5s. 数据 挖掘 对 数据 仓库 的 数据 组 织 提 出 了 更 高 的 要 求 


数据 仓库 作为 数据 挖掘 的 对 象 , 要 为 数据 挖掘 提供 更 多 .更 好 的 数据 。 其 数据 的 设计 、 
组 织 都 要 考虑 到 数据 挖掘 的 要 求 。 


6. 数据 挖掘 还 为 数据 仓库 提供 广泛 的 技术 支持 


数据 挖掘 的 可 视 化 技术 、 统 计 分 析 技 术 等 都 为 数据 仓库 提供 了 强 有 力 的 技术 支持 。 

数据 挖掘 是 数据 仓库 系统 信息 处 理 的 重要 组 成 部 分 。 一 方面 ,基于 数据 仓库 的 数据 控 
掘 技术 能 够 提高 数据 仓库 的 决策 支持 能 力 ; 另 一 方面 ,由 于 数据 仓库 完成 了 数据 的 收集 、 转 
换 、 集 成 ,存储 和 管理 操作 ,为 数据 挖掘 提供 初步 处 理 的 数据 ,有 利于 发 挥 数据 挖掘 的 潜在 能 
力 。 随 着 数据 挖掘 和 数据 仓库 集成 的 进一步 深化 , 必 将 会 给 决策 者 提供 更 有 价值 的 信息 和 
知识 。 


1.5.7 数据 挖掘 的 发 展 趋势 


由 于 目前 的 数据 种 类 多 数据 挖掘 目标 多 种 多 样 ,并且 数 据 挖掘 方法 也 层出不穷 ,这 便 
为 数据 挖掘 技术 今后 的 发 展 带 来 了 许多 具有 挑战 性 的 课题 ,这 些 课 题 包括 : 
(1) 数据 挖掘 应 用 的 探索 ， 
(2) 可 伸缩 的 方法 ; 
(3) 交互 式 发 现 ; 
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(4) 与 数据 库 系 统 .数据 仓库 系统 和 Web 数据 库 系统 的 集成 ; 
(5) 数据 挖掘 语言 的 标准 化 ; 

(6) 可 视 化 数据 挖掘 ; 

(7) 复杂 数据 类 型 挖掘 ; 

(8) Web 挖掘 ,隐私 保护 和 信息 安全 等 。 


1.6 数据 挖掘 过 程 


在 实施 数据 挖掘 之 前 , 先 制定 采取 什么 样 的 步骤 、 每 一 步 都 做 什么 、 达 到 什么 样 的 目标 
是 必要 的 ,有 了 好 的 计划 才能 保证 数据 挖掘 有 条 不 亲 地 实施 并 取得 成 功 。 实 际 上 ,每 一 个 数 
据 挖 气 软 件 提供 商 和 一 些 数据 挖掘 咨询 公司 都 提供 出 了 自己 的 数据 挖掘 过 程 模型 ,遗憾 的 
是 ,它们 虽然 各 有 千秋 ,但 都 是 与 自己 的 产品 相关 联 , 不 能 通用 。 因 此 ,人 们 提出 要 形成 数据 
挖掘 过 程 模型 标准 ,以 便 各 个 软件 开发 厂商 遵循 统一 的 过 程 标准 ,达到 产品 的 互联 .通用 。 
现 有 的 数据 挖掘 系统 大 致 划分 为 两 种 类 型 ,一 种 是 Fayyad 总 结 提出 的 过 程 模型 ; 另 一 种 是 
遵循 CRISP-DM 标准 的 过 程 模型 。 


1.6.1 Fayyad 过 程 模型 


Fayyad 于 1996 年 给 出 的 KDD 知识 发 现 处 理 过 程 ( 见 图 1. 8) 是 公认 的 ,通用 的 知识 发 
现 过 程 定义 。 


数据 准备 数据 挖掘。 ， 评估 与 表示 
返回 清理 返回 选择 返回 数据 | ”返回 评估 
与 集成 与 变换 挖掘 


评估 与 表示 


适合 挖掘 
源 文件 的 数据 | | 数据 挖掘 


请 再 与 集成 > 天皇 放 CA A 


数据 库 


图 1.8 Fayyad 知识 发 现 过 程 模型 


在 知识 发 现 过 程 中 ,数据 被 存储 在 数据 库 中 ,根据 数据 挖掘 算法 的 要 求 从 数据 库 中 选取 
数据 挖掘 所 需要 的 数据 ,在 数据 预 处 理 阶 段 对 数据 噪音 和 错误 数据 进行 处 理 , 然 后 对 数据 进 
行 变 换 满足 数据 挖掘 算法 的 要 求 , 选 择 合适 的 数据 挖掘 算法 进行 数据 挖掘 ,以 发 现 知识 模 
式 , 这 是 知识 发 现 的 核心 阶段 ,最 后 对 发 现 的 模式 进行 解释 和 评估 , 吻 除 元 余 和 无 关 的 模式 ， 
并 要 对 发 现 的 模式 进行 可 视 化 ,把 结果 转换 成 用 户 易 懂 的 表示 方式 。 

从 图 1.8 中 可 以 看 出 ,Fayyad 过 程 模型 主要 由 数据 准备 .数据 挖掘 和 结果 分 析 三 个 主 

Ly 


要 部 分 组 成 。 
1. 数据 准备 


数据 准备 又 可 分 为 三 个 子 步骤 : 数据 选取 (data selection)、 数 据 预 处 理 (data 
preprocessing) 和 数据 变换 (data transformation)。 

数据 选取 的 目的 是 确定 发 现任 务 的 操作 对 象 , 即 目标 数据 (target data) ,是 根据 用 户 的 
需要 从 原始 数据 库 中 抽取 得 一 组 数据 。 数 据 预 处 理 一 般 包 括 消除 噪声 .推导 计算 缺 值 数 据 、 
消除 重复 记录 完成 数据 类 型 转换 (如 把 连续 值 数据 转换 为 离散 型 的 数据 ,以 便于 符号 归纳 ， 
或 是 把 离散 型 的 转换 为 连续 值 型 的 ,以 便于 神经 网 络 算法 挖掘 ) 等 。 当 数据 挖掘 的 对 象 是 数 
据 仓 库 时 ,一 般 来 说 ,数据 预 处 理 已 经 在 生成 数据 仓库 时 完成 了 。 数 据 变 换 的 主要 目的 是 削 
减 数据 维 数 或 降 维 (dimension reduction), 即 从 初始 特征 中 找 出 真正 有 用 的 特征 以 减少 数 
据 挖掘 时 要 考虑 的 特征 或 变量 个 数 。 


2. 数据 挖掘 


数据 挖掘 阶段 首先 根据 对 问题 的 定义 明确 挖掘 的 任务 或 目的 ,如 分 类 、 聚 类 ,关联 规则 
发 现 或 序列 模式 发 现 等 。 确 定 了 挖掘 任务 后 ,就 要 决定 是 用 什么 样 的 算法 。 选 择 实现 算法 
有 两 个 考虑 因素 : 一 是 不 同 的 数据 有 不 同 的 特点 ,因此 需要 用 与 之 相关 的 算法 来 挖掘 ;二 是 
用 户 或 实际 运行 系统 的 要 求 , 有 的 用 户 可 能 希望 获取 描述 型 的 (descriptive) 、 容 易 理解 的 知 
识 ( 采 用 规则 表示 的 挖掘 方法 显然 要 好 于 神经 网 络 之 类 的 方法 ), 而 有 的 用 户 只 是 希望 获取 
预测 准确 度 尽 可 能 高 的 预测 型 (predictive) 知 识 , 并 不 在 意 获 取 的 知识 是 否 易于 理解 。 


3. 结果 解释 和 评估 


数据 挖掘 阶段 发 现 出 来 的 模式 ,经 过 评估 ,可 能 存在 宛 余 或 无 关 的 模式 ,这 时 需要 将 其 
剔除 : 也 有 可 能 模式 不 满足 用 户 要 求 ,这 时 则 需要 整个 发 现 过 程 回 退 到 前 续 阶段 ,如 重新 选 
取 数 据 、 采 用 新 的 数据 变换 方法 、 设 定 新 的 参数 值 ,甚至 换 一 种 算法 ,等 等 。 另 外 ,KDD 由 于 
最 终 是 面向 用 户 的 ,因此 可 能 要 对 发 现 的 模式 进行 可 视 化 ,或 者 把 结果 转换 为 用 户 容易 理解 
的 其 他 表示 形式 ,如 把 分 类 决策 树 转换 为 "IF…THEN…” 规 则 。 

Fayyad 知识 发 现 过 程 模型 是 一 个 迭代 的 过 程 ,在 这 个 过 程 的 每 一 个 阶段 ,如 果 发 现 第 
K 个 阶段 产生 的 结果 和 预想 或 者 希望 分 析 的 内 容 有 出 入 , 则 需要 用 户 重 复 以 前 的 工作 , 即 
或 者 重复 第 KK 一 1 个 阶段 ,或 者 重复 第 1 个 阶段 到 第 KK 一 1 个 阶段 的 任意 组 合 。 

早期 开发 的 大 部 分 数据 挖掘 系统 都 遵循 Fayyad 过 程 模型 , 即 数据 挖掘 系统 的 功能 是 
发 现 模式 ,生成 模型 ,但 是 模型 如 何 被 使 用 ,如 何 和 现 有 的 信息 系统 集成 ,这 些 系 统 并 没有 实 
现 。 典 型 系统 如 : IBM Intelligent Miner、SAS Enterprise Miner .DBMiner 等 。 

Fayyad 过 程 模 型 从 某 种 意义 说 是 面向 理论 ,偏向 技术 的 模型 ,而 不 是 面向 工程 .面向 应 
用 的 模型 。 该 模型 在 数据 选择 这 一 步骤 中 并 没有 体现 选择 数据 的 原则 和 方法 ,也 就 是 没有 
明确 商业 问题 。 而 对 于 面向 应 用 ,面向 工程 的 数据 挖掘 来 说 。 数 据 的 选择 是 由 特定 的 商业 
问题 所 决定 ,需要 领域 专家 、 数 据 管理 员 数据 挖掘 专家 一 起 参与 确定 ,这 是 决定 模型 质量 的 
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Fayyad 过 程 模型 中 虽然 有 模型 的 评估 ,结果 的 解释 。 但 是 这 些 侧 重点 均 在 于 对 于 模型 
性 能 等 的 评价 ,侧重 于 分 析 。 而 实际 上 分 析 的 目的 是 为 了 应 用 ,如 何 应 用 分 析 的 结果 也 就 是 
如 何 使 用 模型 ,使 分 析 型 环境 产生 的 结果 能 够 及 时 被 操作 型 环境 使 用 ,构成 一 个 从 操作 型 环 
境 到 分 析 型 环境 再 到 操作 型 环境 的 封闭 的 信息 流 。 这 一 点 Fayyad 模型 也 没有 体现 。 所 以 
基于 商业 发 展 的 需求 提出 了 CRISP-DM 数据 挖掘 过 程 模 型 。 


1.6.2 CRISP-DM 过 程 模型 


CRISP-DM 的 全 称 是 Cross Industry Process for Data Mining, 即 交叉 行业 数据 挖掘 过 
程 标准 ,如 图 1.9 所 示 。 


图 1.9 CRISP-DM 数据 挖掘 过 程 模 型 


CRISP-DM 过 程 模型 是 数据 挖掘 界 公 认 的 规范 标准 ,是 由 SPSS、NCR、Daimler 
Chrysler 等 世界 知名 公司 根据 其 业务 经 验 与 理论 基础 共同 设计 的 数据 挖掘 流程 。 它 以 企业 
(组 织 ) 所 面临 的 问题 为 出 发 点 ,以 能 实际 解决 企业 (组 织 ) 的 问题 并 找 出 新 的 商机 为 终极 目 
标 , 所 以 CRISP-DM 就 是 以 数据 为 主轴 ,不 断 地 寻找 并 有 效 发 掘 出 隐藏 模式 (hidden 
pattern) 以 及 其 内 涵 的 整体 流程 。 换 言 之 ,如 何 能 在 大 量 数据 中 不 断 地 寻找 出 其 宝藏 即 是 
CRISP-DM 的 精 骨 所在。 

从 图 1.9 中 可 以 看 出 一 个 数据 挖掘 项 目的 生命 周期 包括 6 个 阶段 : 商业 理解 ,数据 理 
解数 据 准备 、 建 立 模 型 .模型 评估 和 模型 发 布 。 各 个 阶段 的 顺序 不 是 僵硬 不 变 的 ,通常 需要 
在 不 同 阶段 之 间 向 前 和 向 后 移动 ,这 取决 于 每 个 阶段 的 结果 和 接 下 来 将 要 实施 的 阶段 或 者 
一 个 阶段 的 具体 任务 。 箭 头 指出 了 各 个 阶段 间 最 为 重要 和 频繁 的 关联 。CRISP-DM 通过 
这 6 个 阶段 来 保证 完成 一 个 成 功 的 数据 挖掘 流程 。 

上 图 最 外 面 的 循环 表示 数据 挖掘 本 身 的 循环 特征 。 数 据 挖掘 并 非 是 一 旦 得 到 一 个 解决 
方案 就 结束 了 。 在 流程 及 解决 方案 中 得 到 的 教训 可 能 引发 新 的 .常常 是 更 为 集中 的 商业 问 
题 。 后 面 的 数据 挖掘 过 程 将 从 前 几 次 的 经 验 中 获 益 。 下 面 分 别 来 看 一 下 生命 周期 的 这 6 个 
阶段 。 


1. 商业 理解 


商业 理解 (business understanding) 是 初始 阶段 集中 在 从 商业 角度 理解 项 目的 目标 和 要 
二 


求 , 然 后 把 理解 转化 为 数据 挖掘 问题 ,并 制定 出 一 个 旨 在 实现 目标 的 初步 计划 。 
2. 数据 理解 


数据 理解 (data understanding) 阶 段 开始 于 原始 数据 的 收集 , 接 下 来 进行 的 活动 是 熟悉 
数据 .识别 数据 质量 问题 .探索 对 数据 的 第 一 认识 ,或 挖掘 有 深层 含义 的 数据 子 集 来 形成 对 
隐藏 信息 的 假设 。 


3. 数据 准备 


数据 准备 (data preparsion) 阶段 包括 所 有 从 原始 未 加 工 的 数据 构造 最 终 数 据 集 的 活动 
(这 些 数据 集 是 指 将 要 嵌入 建 模 工 具 中 的 数据 )。 数 据 准备 任务 可 能 实施 多 次 ,而 且 不 按 任 
何 规定 的 顺序 。 这 些 任务 包括 表格 、 记 录 和 属性 选择 以 及 对 建 模 工具 中 数据 的 转换 和 清理 。 


4. 建 模 


建 模 (modeling) 阶 段 ,主要 是 选择 各 种 建 模 技术 ,同时 对 它们 的 参数 进行 校准 以 达到 最 
优 值 。 通 常 对 于 同一 个 数据 挖掘 问题 类 型 ,会 有 多 种 方法 。 一 些 方 法 在 数据 形式 上 会 有 具 
体 的 要 求 。 因 此 ,常常 必须 返回 到 数据 准备 阶段 。 


5. 评估 


评价 (evaluation) 阶 段 将 由 业务 分 析 人 员 和 领域 专家 一 起 从 业务 的 角度 全 面 地 评价 得 
到 的 模型 ,以 确定 它 是 否 完 全 达到 了 业务 目标 ,最 终 做 出 是 否 应 用 数据 挖掘 结果 的 决策 。 


6. 发 布 


模型 发 布 (deployment) 阶 段 可 以 简单 到 产生 一 个 报告 ,也 可 以 复杂 到 在 整个 企业 中 执 
行 一 个 可 重复 的 数据 挖掘 过 程 。 大 部 分 情况 下 ,是 由 客户 来 实施 发 布 的 ,而 非 数 据 分 析 师 
本 身 。 

不 同 于 Fayyad 模型 ,CRISP-DM 过 程 模型 更 注重 技术 的 应 用 ,很 好 地 解决 了 Fayyad 
模型 在 应 用 方面 所 存在 的 不 足 。 从 图 1. 9 中 可 以 看 出 生命 周期 的 6 个 状态 存在 很 强 的 相互 
依赖 的 关系 ,其 中 任何 一 个 环节 的 质量 关系 着 所 有 环节 的 成 败 。6 个 环节 之 间 并 无 严格 的 
顺序 关系 ,可 以 根据 需要 从 任何 环节 开始 数据 挖掘 过 程 。 该 模型 从 数据 挖掘 技术 应 用 的 角 
度 划 分 数据 挖掘 任务 ,将 数据 挖掘 技术 与 应 用 紧密 结合 ,更 加 注重 数据 挖掘 的 模型 的 质量 和 
如 何 与 业务 问题 相 结 合 、 如 何 应 用 挖掘 出 的 模型 等 实际 应 用 中 用 户 最 关心 的 问题 ,因此 
CRISP-DM 过 程 模型 从 商业 的 角度 给 出 了 对 数据 挖掘 方法 的 理解 。 目 前 数据 挖掘 系统 的 
研制 和 开发 大 都 遵循 CRISP-DM 标准 ,将 模型 的 挖掘 和 模型 的 部 署 紧密 结合 。 


1.6.3 其 他 数据 挖掘 过 程 模型 


除了 上 面 所 提 及 的 数据 挖掘 过 程 模型 外 ,在 商业 应 用 中 还 存在 几 种 常见 的 过 程 模型 。 
SAS 所 提出 的 SEMMA 过 程 模型 将 数据 挖掘 过 程 分 为 数据 取样 ,数据 特征 探索 、 分 析 
和 预 处 理 ,问题 明确 化 .数据 整理 和 技术 选择 ,模型 的 研发 .知识 的 发 现 . 模 型 和 知识 的 综合 
和 


解释 和 评价 。 其 优点 在 于 贯穿 建 模 的 每 个 细节 ,清楚 地 表明 过 程 是 迭代 的 。 缺 点 在 于 没有 
涉及 商业 问题 或 数据 挖掘 问题 ,更 加 关注 过 程 而 不 是 结果 ,同时 没有 能 够 涉及 到 模型 的 
发 布 。 

另 一 个 比较 有 名 的 过 程 模型 则 是 SPSS 在 1997 年 提出 的 5A 模型 一 一 评估 (Assess)、 
访问 (Access) ,分 析 (Analyze) .行动 (Act)、 自 动 化 (Automate)。 其 优点 同样 是 显示 了 分 析 
过 程 的 重复 迭代 性 ,缺点 在 于 没有 说 明 数 据 挖掘 过 程 中 的 商业 问题 ,没有 关注 数据 准备 过 
程 ,更 关注 于 数据 分 析 而 不 是 预测 未 来 可 能 会 发 生 什么 情况 。 


1.7 常用 的 数据 挖掘 技术 


数据 挖掘 技术 可 以 帮助 人 们 从 数据 库 、 特 别 是 数据 仓库 的 相关 数据 集中 提取 出 所 感 兴 
趣 的 知识 ,规则 或 更 高 层次 的 信息 。 如 果 从 整体 上 看 数据 挖掘 技术 ,可 以 将 其 分 为 统计 分 析 
类 ,知识 发 现 类 和 其 他 类 型 的 数据 挖掘 技术 三 大 类 。 


1. 统计 分 析 类 


统计 分 析 ( 或 称 数据 分 析 ) 技 术 中 使 用 的 数据 挖掘 模型 有 线性 分 析 和 非 线 性 分 析 、 回 归 
分 析 、 人 逻辑 回归 分 析 、 单 变量 分 析 、 多 变量 分 析 、 时 间 序 列 分 析 、 最 近邻 算法 和 聚 类 分 析 等 技 
术 。 利 用 这 些 技术 可 以 检查 那些 异常 形式 的 数据 ,然后 ,利用 各 种 统计 模型 和 数学 模型 解释 
这 些 数据 ,解释 隐藏 在 这 些 数 据 背 后 的 市 场 规律 和 商业 机 会 。 例 如 ,可 以 使 用 统计 分 析 工 具 
寻求 最 佳 商 业 机 会 ,增加 市 场 份额 和 利润 ,利用 全 面 质量 管理 程序 ,提高 产品 或 服务 的 质量 ， 
使 客户 更 加 满意 ,通过 对 流水 线 产品 制造 的 调整 或 企业 业务 过 程 的 重 整 ,增加 利润 。 在 所 有 
的 数据 挖掘 技术 中 ,统计 型 数据 挖掘 工具 是 数据 挖掘 技术 中 最 成 熟 的 一 种 ,已 经 在 数据 挖掘 
中 得 到 广泛 的 应 用 。 


2. 知识 发 现 类 


知识 发 现 类 数据 挖掘 技术 是 与 统计 类 数据 挖掘 技术 完全 不 同 的 一 种 挖掘 技术 。 它 可 以 
从 数据 仓库 的 大 量 数据 中 筛选 信息 ,寻找 市 场 可 能 出 现 的 运营 模式 ,发 握 人 们 所 不 知道 的 事 
实 。 主 要 包含 人 工 神经 网 络 决策 树 ,遗传 算法 、 粗 糙 集 、 规 则 发 现 和 关联 顺序 等 。 

知识 发 现 类 技术 在 商业 领域 的 数据 挖掘 中 占据 了 越 来 越 重要 的 地 位 ,这 一 类 技术 不 再 
是 解释 数据 而 是 定位 于 预测 人 们 所 不 知道 的 事 。 目 前 来 说 以 决策 树 和 关联 规则 应 用 最 为 
六 溉 = 

决策 树 是 一 个 类 似 于 流程 图 的 树 结构 ,其 中 每 个 内 部 节点 表示 在 某 个 属性 上 的 测试 ,每 
个 分 支 代表 一 个 测试 输出 ,而 每 个 树叶 子 节点 代表 类 或 类 分 布 。 由 于 每 个 决策 或 事件 ( 即 自 
然 状态 ) 都 可 能 引出 两 个 或 多 个 事件 ,导致 不 同 的 结果 ,把 这 种 决策 分 支 画 成 图 形 很 像 一 棵 
树 的 枝 干 , 故 称 决策 树 。 树 的 最 顶层 节点 是 根 节点 ,内 部 节点 用 矩形 表示 ,而 树叶 节点 用 椭 
圆 表示 。 

关联 规则 是 与 大 多 数 人 想象 的 数据 挖 气 过 程 最 为 相似 的 一 种 数据 挖掘 形式 , 即 在 大 型 
数据 库 中 “淘金 ”一 一 人 们 感 兴趣 的 规则 。 在 关联 规则 系统 中 ,规则 是 “如 果 怎 么 样 、 怎 么 样 、 

。27。 


怎么 样 ,那么 就 怎么 样 ”的 简单 形式 表示 的 。 根 据 规则 中 所 处 理 的 值 类 型 ,关联 规则 可 以 分 
成 布尔 关联 规则 和 量化 关联 规则 两 种 。 根 据 关 联 规则 集 涉 及 不 同 的 抽象 层次 ,关联 规则 可 
分 成 多 层 关联 规则 和 单 层 关联 规则 。 关 联 规则 的 评价 标准 可 用 正确 率 、 覆 盖 率 和 兴趣 度 来 
衡量 。 

这 两 种 技术 应 用 广泛 的 原因 并 非 因为 其 效率 高 ,而 是 因为 通过 这 两 种 技术 建立 的 模型 
可 以 将 知识 以 及 发 现 知识 的 过 程 以 可 理解 的 方式 表达 出 来 。 而 其 他 的 技术 虽然 有 好 的 预测 
效果 ,但 是 由 于 其 就 如 同一 个 黑匣子 ,只 能 看 见 结果 不 能 看 见 过 程 ,而 这 并 非 商业 化 的 数据 
挖 据 系 统 所 需要 的 ,所 以 其 商业 化 的 发 展 步伐 相对 比较 的 缓慢 ,例如 人 工 神经 网 络 ,但 是 以 
其 强大 的 功能 必 将 成 为 将 来 发 展 的 趋势 。 


3. 其 他 类 型 的 数据 挖掘 技术 


除了 上 面 的 两 类 数据 挖掘 技术 外 ,还 有 其 他 的 有 针对 性 地 数据 挖掘 技术 ,如 文本 数据 挖 
据 、Web 数据 挖掘 、 分 类 系统 、 可 视 化 系统 、 空 间 数 据 挖 气 和 分 布 式 数据 挖 据 等 。 

文本 数据 挖掘 和 Web 数据 挖掘 是 近 几 年 新 发 展 起 来 的 开 新 数据 挖掘 技术 。 前 者 主要 
为 了 满足 对 非 结构 化 信息 的 挖掘 的 需要 。 后 者 则 是 针对 日 益 发 展 的 因特网 技术 所 带 来 的 大 
批量 网 络 信息 的 挖掘 。 

分 类 系统 应 该 说 也 是 一 种 知识 发 现 技 术 , 它 的 实现 可 以 采用 各 种 知识 发 现 类 技术 ,在 数 
据 挖掘 中 具有 特殊 重要 的 作用 。 

可 视 化 系统 则 是 为 使 数据 挖掘 能 以 图 形 或 图 像 的 方式 在 屏幕 上 显示 出 来 , 且 能 交互 处 
理 。 这 样 , 可 以 很 清楚 地 发 现 隐 含 的 和 有 用 的 知识 。 可 视 化 数据 挖掘 可 以 分 为 数据 可 视 化 、 
数据 挖掘 结果 可 视 化 .数据 挖掘 过 程 可 视 化 和 交互 式 数据 可 视 化 挖掘。 

空间 数据 挖掘 则 是 基于 地 理 信 息 系统 的 数据 挖掘 技术 。 地 理 信息 系统 (GIS) 的 应 用 领 
域 现 已 扩展 到 航天 电信、 电力 、 交 通 运输 、 商 业 、 市 政 基础 设施 管理 公共 卫生 及 安全 ` 油 气 
等 其 他 矿产 资源 的 勘测 等 诸多 领域 。 在 这 些 领 域 中 的 数据 挖掘 技术 可 用 于 地 图 、 预 处 理 后 
的 遥感 数据 ,医学 图 像 数 据 和 VLSI 芯片 设计 空间 数据 库 中 非 显 式 的 知识 .空间 关系 和 其 他 
有 意义 的 模式 的 提取 。 空 间 数据 挖掘 方法 目前 主要 有 空间 数据 分 类 ,空间 数据 关联 分 析 和 
空间 趋势 分 析 等 。 

分 布 式 数据 挖掘 是 基于 分 布 式 数据 库 的 ,利用 分 布 式 算法 从 分 布 式 数据 库 中 挖掘 知识 
的 技术 。 分 布 式 数据 挖掘 技术 主要 用 于 对 水 平方 式 分 布 或 垂直 方式 的 分 布 的 数据 库 系 统 中 
的 数据 的 挖掘 。 水 平分 布 式 数 据 挖掘 算法 只 需要 首先 完成 各 个 站 点 的 局 部 数据 分 析 , 构 建 
局 部 数据 模型 ,最 后 ,组 合 不 同 数据 站 点 上 的 局 部 数据 模型 ,获得 全 局 数据 模型 即 可 。 垂 直 
式 分 布 的 数据 库 系统 , 则 需要 采用 汇集 型 数据 挖掘 方法 来 实现 。 分 布 式 数据 挖掘 将 更 加 有 
利于 对 分 布 式 数 据 库 数据 资源 的 利用 。 

商业 领域 中 数据 挖掘 技术 较 多 较 成 熟 的 是 统计 分 析 类 的 数据 挖掘 技术 ,其 他 的 挖掘 技 
术 则 是 理论 研究 的 方向 ,而 从 商业 应 用 角度 看 ,数据 挖掘 的 常用 技术 一 般 是 知识 发 现 类 的 技 
术 , 尤 其 是 分 类 与 预测 。 
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1.8 小 结 


本 章 主要 介绍 数据 仓库 与 数据 挖掘 相关 概念 ,数据 仓库 体系 结构 .数据 挖掘 过 程 模型 以 
及 数据 挖掘 技术 等 知识 。 

数据 仓库 是 一 个 面向 主题 的 ,集成 的 ,相对 稳定 .反映 历史 变化 的 数据 集合 ,用 于 辅助 决 
策 。 数 据 仓库 有 4 种 体系 结构 : 虚拟 的 数据 仓库 体系 结构 .单独 的 数据 仓库 体系 结构 .单独 
的 数据 集 市 体系 结构 和 分 布 式 数据 仓库 结构 。 数 据 仓 库 应 用 系统 由 数据 源 、 数 据 仓 库 数据 
库 、 数 据 集 市 .数据 抽取 工具 元 数据 以 及 前 端 访问 展示 工具 组 成 。 数 据 仓库 中 的 数据 有 不 
同 的 粒度 。 

数据 挖掘 是 一 门 交叉 性 学 科 , 它 涉及 人 工 智能 数据库 技术 .机 器 学 习 、 模 式 识别 、 信 息 
学 、 信 息 检索 .统计 学 等 多 个 领域 。 数 据 挖掘 是 从 大 量 数据 中 获取 有 效 的 .新颖 的 、 潜 在 有 用 
的 、 最 终 可 理解 的 模式 的 过 程 。 从 整体 上 看 数据 挖掘 技术 ,可 以 将 其 分 为 统计 分 析 类 、 知 识 
发 现 类 和 其 他 类 型 的 数据 挖掘 技术 三 大 类 。 数 据 挖掘 对 象 可 以 是 存储 的 任何 类 型 的 信息 ， 
如 关系 数据 库 .文本 数据 库 、 多 媒体 数据 库 等 。 


1.9 习 题 
1. 填空 题 
(1) 数据 库 中 存储 的 都 是 ,而 数据 仓库 中 的 数据 都 是 一 些 历史 的 、 存 档 的 , 归 
纳 的 ,计算 的 数据 。 
(2) 数据 仓库 中 的 数据 分 为 四 个 级 别 : 早期 细节 级 、 、 轻 度 综合 级 、 高 度 综 


合 级 。 
(3) 数据 源 是 数据 仓库 系统 的 基础 ,是 整个 系统 的 数据 源泉 ,通常 包括 
和 。 

(4) 元 数据 是 “关于 数据 的 数据 ?。 根 据 元 数据 用 途 的 不 同 将 数据 仓库 的 元 数据 分 
为 和 两 类 。 

(5) 数据 处 理 通常 分 成 两 大 类 : 联机 事务 处 理 和 。 


(6) Fayyad 过 程 模型 主要 由 数据 准备 ， 和 三 个 主要 部 分 组 成 。 

(7) 如 果 从 整体 上 看 数据 挖 握 技术 ,可 以 将 其 分 为 5 和 其 他 类 型 的 数 
据 挖掘 技术 三 大 类 。 

(8) 那些 与 数据 的 一 般 行为 或 模型 不 一 致 的 数据 对 象 称 做 E 

(9) 按照 挖掘 对 象 的 不 同 , 将 Web 数据 挖掘 分 为 三 类 : 、Web 结构 挖掘 
和 

(10) 查询 型 工具 、 分 析 型 工具 和 结合 在 一 起 构成 了 数据 仓库 系统 的 工具 层 ， 


它们 各 自 的 侧重 点 不 同 , 因 此 适用 范围 和 针对 的 用 户 也 不 相同 。 
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(1) 什么 是 数据 仓库 ? 数据 仓库 的 特点 主要 有 哪些 ? 
(2) 简 述 数据 挖掘 的 技术 定义 。 

(3) 什么 是 业务 元 数据 ? 

(4) 简 述 数据 挖掘 与 传统 分 析 方 法 的 区 别 。 

(5) 简 述 数据 仓库 4 种 体系 结构 的 异同 点 及 其 适用 性 。 


Pe 


第 2 章 ”数据 仓库 开发 漠 弄 


模型 是 实际 系统 的 表示 , 它 向 用 户 展现 了 重要 的 系统 特征 。 同 时 ,模型 通过 消除 与 其 目 
的 无 关 紧 要 的 特征 来 简化 显示 。 如 果 数 据 仓 库 的 模型 能 为 决策 者 提供 的 信息 超过 决策 者 直 
接 从 各 个 信息 系统 获取 的 信息 ,那么 这 个 模型 就 将 成 为 有 用 的 工具 ,这 就 是 数据 仓库 模型 用 
途 的 本 质 。 


2.1 数据 仓库 开发 模型 概述 


设计 一 个 能 够 真正 支持 用 户 进行 决策 分 析 的 数据 仓库 ,并 非 一 件 轻而易举 的 事情 。 这 
需要 经 历 一 个 从 现实 环境 到 抽象 模型 ,从 抽象 模型 到 具体 实现 的 过 程 。 完 成 这 个 过 程 建立 
各 种 不 同 的 数据 模型 是 必 不 可 少 的 。 模 型 是 对 现实 世界 进行 抽象 的 工具 。 在 信息 管理 中 需 
要 将 现实 世界 的 事物 及 其 有 关 特 征 转换 为 信息 世界 的 数据 才能 对 信息 进行 处 理 与 管理 ,这 
就 需要 依靠 数据 模型 作为 这 种 转换 的 桥梁 。 

数据 仓库 模型 设计 包括 概念 模型 设计 、 催 辑 模型 设计 、 物 理 模 型 设计 ,元 数据 模型 设计 
等 内 容 。 数 据 仓库 的 建 模 首先 要 将 现实 的 决策 分 析 环 境 抽 象 成 一 个 概念 数据 模型 。 然 后 ， 
将 此 概念 模型 逻辑 化 ,建立 逻辑 数据 模型 。 最 后 ,还 要 将 逻辑 数据 模型 向 数据 仓库 的 物理 模 
型 转化 。 作 为 数据 仓库 灵魂 的 元 数据 模型 则 自始至终 伴随 着 数据 仓库 的 开发 .实施 与 使 用 。 
数据 仓库 的 数据 抽取 模型 则 说 明 抽 取 什 么 数据 ,从 哪些 业务 系统 抽取 ,对 抽取 的 数据 进行 哪 
些 转换 处 理 等 。 数 据 仓库 的 数据 建 模 技术 如 图 2. 1 所 示 。 


现实 世界 
一 | 高 层 概念 模型 


鞍 | 一 [中层 地 辆 并 
锚 | | 
机 最 
区 | 上 ~[ 移 理 模型 模 
性 
1 
一 | 到 所 他 和 的 实现 |- 


图 2.1 数据 仓库 的 数据 建 模 技术 


现实 世界 是 存在 于 现实 之 中 的 各 种 客观 事物 。 概 念 世界 是 现实 情况 在 人 们 头脑 中 的 反 
应 。 逮 辑 世 界 是 人 们 为 将 存在 于 自己 头脑 中 的 概念 模型 转换 到 计算 机 中 的 实际 的 物理 存储 
过 程 中 的 一 个 计算 机 逻辑 表示 模式 。 计 算 机 世界 则 是 指 现实 世界 中 的 事物 在 计算 机 系统 中 
的 实际 存储 模式 。 现 实 世 界 与 其 他 模型 的 变化 联系 如 图 2. 2 所 示 。 
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现实 世界 概念 世界 逻辑 世界 计算 机 世界 
信 月 一 | 特性 一 属性 一 | 列 (字段 ) 
张 三 一 | 个 体 一 | 实体 | 记录 

客户 | 整体 | 同 质 实体 | 一 一 表 文件 
客户 与 产品 上-=| 整体 间 联系 | 一 =| 异 质 实体 一 | 数据 库 


图 2.2 现实 世界 与 其 他 模型 的 变化 联系 


2.2 数据 仓库 的 概念 模型 


数据 仓库 概念 模型 设计 的 目的 是 对 数据 仓库 所 涉及 现实 世界 的 所 有 客观 实体 进行 科 
学 ,全 面 地 分 析 和 抽象 ,制定 构建 数据 仓库 的 “蓝图 ”"。 数 据 仓 库 的 概念 模型 设计 时 需要 确定 
数据 仓库 的 主要 主题 及 其 相互 关系 。 主 题 应 该 能 够 完整 统一 地 刻画 出 分 析 对 象 所 涉及 的 
各 项 数据 以 及 相互 联系 ,根据 需求 分 析 确 定 几 个 基本 的 主题 域 及 其 维度 。 概 念 模型 设计 主 
要 完成 以 下 工作 。 

(1) 界定 系统 边界 , 即 进行 任务 和 环境 评估 、 需 求 收集 和 分 析 , 了 解 用 户 迫 切 需要 解决 
的 问题 及 解决 这 些 问 题 所 需要 的 信息 ,需要 对 现 有 数据 库 中 的 数据 有 一 个 完整 而 清晰 的 
认识 。 

(2) 确定 主要 的 主题 域 ,对 每 一 个 主题 域 的 公共 码 键 .主题 域 之 间 的 联系 .充分 代表 主 
题 的 属性 进行 较 明 确 的 描述 。 

(3) 一 旦 主题 划分 清楚 了 ,接着 就 要 细 化 分 析 的 具体 内 容 以 及 根据 分 析 内 容 的 性 质 确 
定 分 析 维 度 。 通 常 维 元 素 对 应 的 是 分 析 角 度 ,而 度量 对 应 的 是 分 析 关 心 的 具体 指标 。 一 个 
指标 究竟 是 作为 维 元 素 .度量 还 是 维 属 性 ,取决 于 具体 的 业务 需求 ,一般 情况 下 ,作为 维 元 素 
或 维 属性 的 通常 是 离散 型 的 数据 ,只 允许 有 限 地 取 值 ;作为 度量 是 连续 型 数据 , 取 值 无 限 。 
如 果 一 定 要 用 连续 型 数据 作为 维 元 素 , 则 必须 对 其 按 取 值 进行 分 段 , 以 分 段 值 作为 实际 的 维 
元 素 。 判 断 分 析 指 标 是 作为 维 元 素 还 是 维 属性 时 , 则 需要 综合 考虑 这 个 指标 占用 的 存储 空 
间 与 相关 查询 的 使 用 频 度 。 

数据 仓库 概念 模型 设计 经 常 采用 E-R 模型 和 面向 对 象 的 分 析 方 法 ,并 用 信息 包 图 法 进 
一 步 细 化 概念 模型 。 


2.2.1 企业 模型 的 建立 


进行 数据 仓库 数据 建 模 之 前 ,对 数据 仓库 的 需求 进行 分 析 是 必 不 可 少 的 ,数据 仓库 需求 

分 析 需 要 对 来 自 多 个 领域 的 需求 进行 详细 分 析 。 需 求 分 析 的 方式 有 两 种 ; 一 是 对 原 有 固定 

报表 进行 分 析 ; 二 是 对 业务 人 员 进 行 访谈 。 原 有 固定 报表 能 较 好 地 反映 出 原 业务 对 数据 分 

析 的 需求 ,而且 数 据 含义 和 格式 相对 成 熟 、 稳 定 , 在 模型 设计 中 需要 大 量 借鉴 。 但 数据 仓库 

建设 中 仅仅 替代 目前 的 手工 报表 还 是 不 够 的 ,因此 还 应 该 通过 业务 访谈 ,进一步 控 握 出 日 常 
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工作 中 洪 在 的 更 广 .更 深 的 分 析 需 求 。 只 有 这 样 ,才能 真正 了 解构 建 数据 仓库 模型 所 需 的 
题 划分 ,数据 仓库 的 主题 划分 实际 上 与 分 析 内 容 的 范围 直接 相关 。 

数据 仓库 的 最 终 用 户 只 能 通过 查询 和 报表 工具 以 及 数据 仓库 内 部 信息 的 某 种 映射 关系 
来 访问 数据 仓库 内 部 数据 。 对 他 们 而 言 ,数据 仓库 是 一 个 黑箱 。 最 终 用 户 的 需求 体现 在 对 
工作 流程 的 分 析 、 决 策 的 查询 需求 .报表 需求 .操作 需求 和 数据 需求 等 方面 。 最 终 用 户 指 定 
数据 分 析 的 类 型 ,这 些 数 据 分 析 操 作 主 要 是 对 数据 项 进行 揭示 更 多 的 细节 的 分 片 和 细 训 , 寻 
找 企业 隐 含 行为 的 数据 挖掘 ,在 对 数据 进行 分 析 时 可 从 二 维 或 多 维 的 .电子 表格 的 .关系 的 、 
报表 的 、 图 表 的 和 运营 样本 的 数据 等 方面 进行 分 析 。 

本 章 以 SQL Server 2005 数据 库 引 入 的 Adventure Works 示例 数据 库 为 例 介 绍 数据 仓 
库 数 据 建 模 过 程 。SQL Server 2005 数据 库 的 示例 以 名 为 Adventure Works Cycles 的 虚拟 
公司 为 背景 ,该 公司 是 一 家 大 型 跨国 生产 公司 ,其 产品 主要 包括 生产 金属 和 复合 材料 的 自行 
车 ,公司 总 部 设 在 华盛顿 州 的 伯 瑟 尔 市 ,有 500 名 雇员 ,该 公司 在 世界 各 地 均 建立 了 区 域 性 
销售 团队 ,产品 远 销 北美 .欧洲 和 亚洲 市 场 。Adventure Works Cycles 目前 的 目标 是 专注 于 
向 高 端 用 户 提 供 产品 ,通过 外 部 网 站 扩展 其 产品 的 销售 渠道 .通过 降低 生产 成 本 来 削减 其 销 
售 成 本 。 本 节 将 通过 介绍 该 公司 的 原材料 采购 .生产 和 销售 等 环节 的 业务 流程 ,提出 该 公司 
的 数据 仓库 需求 。 


1. 原材料 采购 业务 流程 


该 公司 内 部 由 采购 部 负责 原材料 采购 ,采购 部 门下 设 一 名 经 理 和 多 名 采购 员 。 每 个 采 
购 员 需 要 了 解 原材料 和 供应 商 的 联系 ,负责 多 种 原材料 的 采购 ,一 种 原材料 只 能 由 一 个 采购 
员 采 购 ,采购 员 和 商品 之 间 是 一 对 多 关系 ;一 种 原材料 有 多 个 供应 商 , 一 个 供应 商 可 以 提供 
多 种 原材料 ,原材料 和 供应 商 之 间 是 多 对 多 的 关系 ;采购 部 门 经 理 需 要 管理 员工 ,并 且 还 需 
要 了 解 原材料 的 库存 情况 ,以 确定 需要 采购 的 商品 并 将 任务 分 配给 每 个 采购 人 员 。 
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2. 库存 业务 流程 


公司 由 仓库 管理 部 门 对 原材料 、 产 品 等 物料 信息 进行 库存 管理 ,仓库 管理 部 门 管理 多 个 
仓库 ,下 设 一 名 经 理 和 多 名 仓库 管理 员 , 每 个 仓库 有 多 名 仓库 管理 员 , 每 名 管理 员 只 能 在 一 
个 仓库 中 进行 工作 。 仓 库 管理 员 需 要 知道 他 所 管理 的 仓库 中 存储 的 物料 的 种 类 数量、 存储 
的 时 间 、 原 材料 的 保值 期 及 原材料 进入 仓库 和 离开 仓库 的 时 间 等 信息 。 一 个 仓库 可 以 保存 
多 种 物料 。 仓 库 管 理 部 门 经 理 不 但 需要 处 理 仓库 管理 员 需 要 的 数据 ,而 且 需 要 知道 仓库 管 
理 员 的 基本 信息 ,如 家 庭 地 址 、 联 系 电话 等 。 


3. 产品 销售 业务 流程 


Adventure Works Cycles 公司 的 产品 远 销 北美 .欧洲 和 亚洲 市 场 。 公 司 目 前 有 网 络 销 

售 和 批发 商 销售 两 种 销售 渠道 。 因 此 ,客户 也 分 为 个 人 消费 者 和 商店 两 类 ,个 人 消费 者 是 从 

在 线 商店 购买 产品 的 消费 者 ,商店 是 从 Adventure Works Cycles 销售 代表 处 购买 产品 后 进 

行 转 售 的 零售 店 或 批发 店 。 销 售 人 员 关 心 产品 的 信息 ,包括 : 产品 的 价格 ` 质 量 .颜色 和 规 
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格 等 ,以 便 向 顾客 推销 相关 的 产品 。 销 售 部 门 经 理 需 要 了 解 产 品 销售 情况 ,以 便 在 某 种 产 
品 缺 货 时 通知 仓库 管理 部 门 运送 商品 ;同时 .他 还 需要 了 解 每 个 销售 员 的 工作 业绩 ,对 每 个 
销售 员 进 行 考核 , 即 销售 部 门 经理 需 要 了 解 商 品 .顾客 和 部 门 员工 的 情况 。 

在 设计 数据 仓库 数据 模型 时 要 从 业务 蕴涵 的 数据 视角 来 理解 业务 ,从 业务 分 析 中 可 以 
看 出 ,不 同 部 门 对 数据 需求 不 同 ,同一 部 门人 员 对 数据 需求 也 存在 差异 。 如 管理 人 员 和 普通 
业务 人 员 对 数据 要 求 的 程度 是 不 同 的 ,管理 人 员 可 能 需要 综合 度 较 高 或 较为 概括 的 数据 ,而 
普通 业务 人 员 需 要 细节 数据 。 因 此 ,数据 仓库 项 目 需求 的 收集 与 分 析 需 要 从 历史 数据 与 用 
户 需 求 两 个 方面 同时 着 手 ,采用 “数据 驱动 十 用 户 驱 动 ”的 设计 理念 。 


2.2.2 规范 的 数据 模型 


关系 模型 是 具有 二 维 表格 形式 的 数据 模型 , 它 建立 在 关系 代数 的 基础 上 。 是 传统 数据 
库 中 最 常用 的 数据 模型 ,其 特点 是 把 数据 组 织 成 二 维 表 的 形式 ,无 论 是 实体 还 是 实体 间 的 联 
系 都 采用 二 维 表 , 二 维 表 的 每 一 行 叫做 关系 的 一 个 元 组 ,每 一 列 叫做 关系 的 一 个 属性 。 关 系 
中 的 每 一 列 的 值 总 是 取 自 一 个 集合 ,这 个 集合 称 为 域 。 

关系 模型 可 以 用 实体 -联系 (Entity-Relationship,E-R ) 图 来 表示 。E-R 图 通过 定义 了 
数据 间 的 关系 ,去 除数 据 元 余 , 使 操作 型 处 理 简单 ,还 可 保证 数据 一 致 性 。 因 此 ,关系 模型 在 
传统 的 操作 型 数据 库 系 统 中 获得 了 巨大 的 成 功 。 

范式 是 关系 数据 库 模 型 设计 的 基本 理论 ,一 个 关系 模型 可 以 从 第 一 范式 到 第 五 范式 进 
行 无 损 分 解 ,这 个 过 程 也 称 为 规范 化 (normalize)。 在 数据 仓库 的 模型 设计 中 目前 一 般 采 用 
第 三 范式 , 它 有 非常 严格 的 数学 定义 。 如 果 从 其 表达 的 含义 来 看 ,一 个 符合 第 三 范式 的 关系 
必须 具有 以 下 三 个 条 件 : 

(1) 每 个 属性 的 值 唯一 ,不 具有 多 义 性 。 

(2) 每 个 非 主 属性 必须 完全 依赖 于 整个 主键 ,而 非 主键 的 一 部 分 。 

(3) 每 个 非 主 属性 不 能 依赖 于 其 他 关系 中 的 属性 。 

第 三 范式 的 定义 基本 上 是 围绕 主键 与 非 主 属性 之 间 的 关系 而 做 出 的 。 如 果 只 满足 第 一 
个 条 件 , 则 称 为 第 一 范式 ;如 果 满 足 前 面 两 个 条 件 , 则 称 为 第 二 范式 , 依 此 类 推 。 因 此 ,各 级 
范式 是 向 下 兼容 的 。 

例如 Adventure Works Cycles 公司 的 业务 数据 分 为 5 大 部 分 ,如 表 2-1 所 示 。 


表 2-1 Adventure Works Cycles 公司 的 数据 架构 列表 


表 类 名 含义 
Human Resources 人 力 资 源 相 关 信 息 
Person 客户 或 供应 商 联系 人 等 人 员 信 息 
Production 产品 信息 
Purchasing 采购 信息 
Sales 销售 信息 


这 5 个 架构 相关 的 表 信息 如 表 2-2 所 示 。 
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表 2-2 Adventure Works Cycles 公司 的 数据 表 信息 


架构 名 表 名 表 含 义 
Department 公司 部 门 信息 表 
Employee 雇员 信息 表 
EmployDepartmentHistory 雇员 及 其 所 在 部 门 的 当前 和 历史 数据 
Human Resources 
EmployeePayHistory 雇员 当前 和 历史 的 工资 数据 
JobCandidate 申请 人 提交 给 人 力 资源 部 门 的 简历 信息 
Shift 工作 轮班 时 间 的 数据 信息 
Address 客户 .供应 商 和 雇员 地 址 信息 表 
Contact 客户 ,供应 商 和 雇员 姓名 及 联系 方式 等 相关 信息 表 
Berson CountryRegion 国际 上 用 来 标识 国家 和 地 区 的 标准 代码 信息 表 
5 国际 上 用 来 标识 国家 和 地 区 中 省 .市 .自治 区 的 标准 
代码 信息 表 
ProductProductPhoto 关联 产品 和 产品 图 像 交 叉 数据 表 
ProductReview 客户 对 产品 的 评论 信息 表 
EN 当前 年 度 的 各 种 采购 订单 .销售 订单 或 工作 订单 事务 
信息 表 
ProductSubcategory 产品 的 子 类 别 信息 表 
OA 历史 年 度 的 各 种 采购 订单 .销售 订单 或 工作 订单 事务 
BillofMaterials 用 于 生产 自行 车 及 其 子 部 件 的 所 有 组 件 信息 表 
Document Microsoft office Word 格式 的 产品 维护 文档 
Culture 产品 说 明 语 言 信 息 表 
WorkOrder 生产 工作 订单 基本 信息 表 
WorkOrderRouting 生产 工作 订单 详细 信息 表 
Production Tllustration 以 . XML 文件 存储 的 产品 部 件 关 系 图 
Location 产品 库存 和 生产 地 点 的 数据 信息 表 


UnitMeasure 


标准 测量 单位 的 代码 及 说 明 信 息 表 


Product 售 出 的 或 在 售 的 生产 过 程 使 用 的 产品 信息 表 
ProductCategory 产品 的 详细 分 类 信息 表 
ProductCostHistory 产品 历史 成 本 信息 表 


ProductDescription 


多 种 语言 的 产品 说 明 信 息 表 


ProductDocument 产品 关联 到 相关 产品 文档 的 交叉 引用 信息 表 
ProductInventory 产品 库存 信息 表 


ProductListPriceHistory 


历史 上 对 产品 标价 所 做 的 更 改 信 息 表 


ProductModel 


产品 型 号 分 类 、 产 品类 别 及 生产 说 明 信 息 表 


ProductModellllustration 


定义 产品 型 号 和 图 示 的 关联 关系 的 信息 表 
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续 表 


架构 名 表 名 表 含义 

ProductVendor 将 供应 商 关 联 到 其 提供 给 公司 的 产品 信息 表 
Vendor 供应 商 信息 表 
PurchaseOrderDetail 采购 订单 信息 表 

Purchasing VendorAddress 供应 商 及 其 地 址 信息 表 
VendorContact 供应 商 联 系 人 与 公司 雇员 联系 信息 表 
PurchaseOrderHeader 常规 或 父 级 采购 订单 信息 表 
ShipMethod 发 货 公 司 的 字典 信息 表 
StoreContact 销售 人 员 间 联系 信息 表 
ContactCreditCard Contact 表 中 客户 信用 卡 信息 表 
CountryRegionCurrency 各 国家 或 地 区 的 ISO 货币 代码 表 
SalesPerson 当前 销售 代表 销售 信息 表 
SalesPersonQuotaHistory 销售 代表 的 历史 销售 信息 表 
Currency ISO 货币 说 明 信 息 表 
SalesOrderDetail 销售 订单 明细 信息 表 
CurrencyRate 外 币 汇率 字典 信息 表 
Customer 当前 客户 信息 表 
SalesOrderHeader 销售 订单 基本 信息 表 
CreditCard 客户 信用 卡 信息 表 

Sales 


CustomerAddress 客户 地 址 信息 表 
SalesOrderHeaderSalesReason | 销售 订单 及 销售 原因 代码 信息 表 


SalesReason 客户 采购 特定 产品 原因 信息 表 
Individual 有 关 在 线 采购 产品 客户 统计 信息 表 
SalesTaxRate 税率 字典 

SalesTerritory 销售 团队 负责 的 销售 地 区 信息 表 
SalesTerritoryHistory 销售 代表 调动 信息 表 
ShoppingCartItem 尚未 提交 或 取消 的 在 线 客 户 订单 
SpecialOffer 销售 折扣 数据 信息 表 
SpecialOfferProduct 将 产品 关联 到 销售 折扣 的 信息 表 
Store 客户 和 经 销 商 信息 表 


以 上 对 Adventure Works Cycles 公司 业务 数据 表 进 行 了 解释 ,目的 是 提供 一 个 可 供 参 
考 的 示例 , 若 要 更 深入 理解 业务 数据 ,还 要 对 操作 型 业务 数据 库 中 的 表 结 构 及 表 间 关系 进行 
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分 析 。 这 里 以 原材料 采购 数据 中 的 表 Purchasing. Purchase Order Header 为 例 分 析 此 表 具 
体 结构 ,如 表 2-3 所 示 。 对 这 些 业 务 数据 表 进 行 分 析 , 对 后 面 的 ETL 处 理 及 业务 分 析 和 业 
务 规则 挖掘 等 操作 相当 重要 。 


表 2-3 ”Purchasing. Purchase Order Header 的 数据 表 结 构 


列 数据 类 型 说 明 
PurchasOrderID int 采购 订单 主键 
Revision Number tinyint 采购 订单 变化 的 递增 编号 
Status tinyint 订单 状态 : 1 一 等 待 批准 ,2 一 已 批准 ,3 一 已 拒绝 ,4 一 完成 
EmployeeID int 创建 采购 订单 的 雇员 编号 (外 键 ) 
VendorID int 采购 订单 所 采购 的 商品 对 应 供应 商 编 号 (外 键 ) 
ShipMethodID int 发 货 方法 编号 (外 键 ) 
OrderDate datetime 采购 订单 创建 时 间 
ShipDate datetime 预计 供应 商 发 货 日 期 
SubTotal money 采购 订单 小 计 
TaxAmt money 税额 
Freight money 运费 
TotalDue money 应 付款 (等 于 SubTotal 十 TaxAmt 十 Freight) 
ModifiedDate datetime 上 次 更 新 日 期 和 时 间 


在 实际 设计 中 用 于 数据 仓库 设计 的 概念 模型 与 业务 数据 处 理 系统 的 三 级 数据 模型 仍然 
具有 一 定 的 差距 。 

(1) 数据 类 型 的 差距 : 数据 仓库 的 概念 模型 只 包含 用 户 所 感 兴趣 的 分 析 数 据 、 描 述 数 
据 和 细节 数据 。 

(2) 数据 的 历史 变迁 性 : 数据 仓库 的 概念 模型 扩充 了 关键 字 结 构 , 增 加 了 事件 属性 并 
作为 关键 字 的 一 部 分 。 

(3) 数据 的 概括 性 : 数据 仓库 的 概念 模型 中 还 增加 了 一 些 基 本 数据 所 导出 的 衍生 数据 
用 于 管理 决策 分 析 , 这 些 在 业务 处 理 系统 中 是 不 存在 的 。 

数据 仓库 项 目 需求 的 收集 与 分 析 需 要 从 历史 数据 与 用 户 需求 两 个 方面 同时 着 手 , 采 用 
“数据 驱动 十 用 户 驱 动 ” 的 设计 理念 。 

数据 驱动 是 根据 当前 业务 数据 的 基础 和 质量 情况 ,以 数据 源 的 分 析 为 出 发 点 构建 数据 
仓库 ,用 户 驱 动 则 是 根据 用 户 业务 的 方向 性 需求 ,从 业务 需求 出 发 ,确定 系统 范围 的 需求 框 
架 。 如 图 2. 3 所 示 , 常 常用 “两 头 挤 法 ” 找 出 数据 仓库 系统 的 真正 需求 。 


用 户 需 求 一 一 | 系统 条 件 数据 
(人 [~ 真正 需求 (有 什么 ) 


图 2.3 用 户 驱动 与 数据 驱动 相 结合 示意 图 


在 企业 模型 建立 过 程 中 ,与 用 户 交 流 时 , 须 确定 数据 仓库 需要 访问 的 有 关 信 息 。 例 如 ， 
Adventure Works Cycles 公司 管理 要 在 数据 仓库 中 得 到 有 关 产 品 销售 收入 的 详细 统计 信 
息 ,可 以 确定 其 度量 指标 如 下 : 


i 


(1) 度量 指标 : 包括 产品 销售 的 实际 收入 .产品 销售 的 预算 收入 及 产品 销售 的 估计 
收入 。 

(2) 维度 指标 : 包括 已 经 销售 的 产品 信息 、 销 售 地 点 和 顾客 信息 等 。 

根据 分 析 , 可 建立 Adventure Works Cycles 公司 的 企业 数据 模型 ,如 图 2.4 所 示 。 


销售 部 门 本 一 人 事 部 门 
中 到 二 友和 
铬 记 rr 
销售 订单 客户 生产 部 门 企业 雇员 
销售 统计 分 析 


图 2.4 Adventure Works Cycles 公司 企业 数据 模型 


2.2.3 常见 的 概念 模型 


在 概念 模型 设计 中 ,常用 E-R 图 作为 描述 工具 。E-R 图 中 ,长 方 体 表示 实体 , 即 数 据 仓 
库 的 主题 域 , 框 内 写 上 主题 域名 称 ;用 椭圆 表示 主题 域 的 属性 ,用 无 向 边 把 主题 域 与 其 属性 
连接 起 来 ;再 将 边 表示 主题 域 之 间 的 联系 ,主要 有 一 对 一 的 关系 、 一 对 多 的 关系 、 多 对 多 的 
关系 。 

主题 是 指 在 较 高 层次 上 将 业务 数据 进行 综合 、 归 类 和 分 析 利 用 的 一 个 抽象 概念 ,每 个 主 
题 基本 对 应 业务 的 一 个 分 析 领 域 。 在 主题 分 析 中 须 对 分 析 对 象 数 据 形成 一 个 完整 并 且 一 致 
的 描述 ,主题 是 根据 分 析 需 求 确定 的 。 主 题 域 是 对 某 个 主题 进行 分 析 后 确定 的 主题 边界 。 
主题 域 的 确定 通常 由 最 终 用 户 和 数据 仓库 的 设计 人 员 共 同 完成 。 例 如 ,对 于 Adventure 
Works Cycles 公司 的 管理 层 可 能 需要 分 析 的 主题 包括 供应 商 、 商 品 、 客 户 和 库存 情况 等 主 
题 。 其 中 商品 主题 的 内 容 包 括 记 录 各 经 销 商 商品 的 销售 情况 、 公 司 商品 库存 情况 、 商 品 中 各 
组 成 物料 的 采购 情况 等 ;客户 主题 包括 的 内 容 有 客户 购买 商品 情况 ;库存 情况 主题 分 析 主 要 
包括 商品 的 存储 情况 和 仓库 的 管理 情况 等 。 根 据 分 析 主 题 和 主题 域 可 得 到 Adventure 
Works Cycles 公司 的 主题 及 主题 域 结构 ,如 图 2.5 所 示 。 

接着 可 以 用 建立 信息 包 图 的 方式 进一步 细 化 概念 模型 。 信 息 包 图 是 在 某 主题 域 中 的 一 
个 主题 分 析 的 信息 打包 技术 , 它 反映 了 在 数据 聚合 条 件 下 的 多 维 数据 在 计算 机 内 部 的 存储 
方式 ,可 以 体现 各 个 不 同 平台 的 各 个 信息 的 聚合 的 概念 性 含义 ,主要 包括 定义 指标 、 定 义 维 
度 和 定义 类 别 三 个 方面 的 内 容 。 信 息 包 图 法 也 叫 用 户 信 息 需求 表 法 ,就 是 在 一 张 平面 表格 
上 描述 元 素 的 多 维 性 ,其 中 每 一 个 维度 用 平面 表格 的 一 列表 示 ,例如 时 间 、 地 点 .产品 和 顾客 
等 。 信 息 包 图 定义 主题 内 容 和 主要 性 能 指标 之 间 的 关系 ,其 目标 是 在 概念 层 满足 用 户 需求 。 
信息 包 图 拥有 三 个 重要 对 象 : 度量 指标 、 维 度 、 类 别 。 利 用 信息 包 图 设计 概念 模型 就 是 要 确 
定 这 三 方面 内 容 。 

(1) 确定 度量 指标 。 度 量 指标 表明 在 维度 空间 衡量 业务 信息 的 一 种 方法 ,是 访问 数据 
仓库 的 关键 所 在 ,是 用 户 最 关心 的 信息 。 成 功 的 信息 包 可 以 保证 用 户 从 信息 包 中 获取 需要 
的 各 个 性 能 指标 参数 。 
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图 2.5 ” Adventure Works Cycles 公司 主题 及 主题 域 划分 


(2) 确定 维度 。 维 度 提 供 了 用 户 访问 数据 仓库 信息 的 途径 ,对 应 超 立 方 体 的 每 一 面 , 位 
于 信息 包 图 第 一 行 的 每 一 个 栏目 中 。 
(3) 确定 类 别 。 类 别 是 在 一 个 维度 内 为 了 提供 详细 分 类 而 定义 的 ,其 成 员 是 为 了 辨别 
和 区 分 特定 数据 而 设 , 它 说 明 一 个 维度 包含 的 详细 信息 ,一 个 维度 内 最 底层 的 可 用 分 类 又 称 
为 详细 类 别 。 
例如 ,Adventure Works Cycles 公司 销售 分 析 主 题 的 信息 包 图 如 表 2-4 所 示 。 
表 2-4 Adventure Works Cycles 公司 销售 分 析 主 题 的 信息 包 图 


信息 包 图 主题 : 销售 分 析 


维度 一 时 间 维 区 域 维 产品 维 客户 维 广告 维 
年 度 (5) 国家 (10) 产品 类 别 (500) 年 龄 分 组 (7) 广告 费用 (5) 
类 别 ”| 季度 (20) 省 州 (100) 产品 名 称 (9000) | ”收入 分 组 (8) 
+ 月 (60) 城市 (500) 信用 分 组 (5) 
日 (1800) 销售 点 (8000) 


注 : 度量 指标 包括 实际 销售 额 .计划 销售 额 . 计 划 完 成 率 。 


概念 模型 的 定义 ,不 仅 需要 构建 一 个 ERD 模型 ,还 要 了 解 ERD 模型 中 每 一 个 实体 的 诞 

生 与 消亡 事件 。 因 为 只 有 在 实体 诞生 以 后 ,数据 仓库 才能 从 数据 源 中 获取 关于 这 一 实体 的 

数据 。 当 这 个 实体 消亡 后 ,还 需要 将 该 实体 的 消亡 状况 在 数据 仓库 的 元 数据 中 记录 下 来 。 

为 了 提高 系统 的 处 理 效率 ,在 业务 处 理 系统 中 常 将 一 些 历史 数据 删除 ,但 是 在 数据 仓库 中 这 
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些 历史 数据 却 要 保留 下 来 。CRUD 和 矩阵 是 指 利用 和 矩阵 的 形式 来 表示 各 个 不 同 用 户 对 不 同 
操作 的 动作 行为 。 其 中 ,C 是 Creat (产生 ),R 是 Read( 引 用 ),U 是 Update( 更 新 ),D 是 
Delete( 删 除 )。Adventure Works Cycles 公司 销售 分 析 CRUD 和 矩阵 如 表 2-5 所 示 。 


表 2-5 Adventure Works Cycles 公司 销售 分 析 CRUD 和 矩阵 


功 能 客 户 销售 单 - 品 销售 雇员 供 货 商 
销售 单 输入 CRUD CRUD R RU RU 
销售 单 处 理 CRUD CRUD 
商品 管理 R R RU R 
预算 系统 R R R RU R 
财务 计算 RU R RU R R 
库存 控制 R RU CRUD R 
后 勤 R RU R RU 


注 ; C 一 Create,R 一 Read,U 一 Update,D 一 Delete。 


虽然 数据 仓库 的 基础 是 规范 化 的 数据 模型 ,规范 化 数据 模型 在 数据 仓库 的 实际 应 用 中 
并 不 理想 。 关 系 模型 在 传统 的 操作 型 数据 库 系统 中 获得 了 巨大 的 成 功 ,但 以 E-R 图 展示 的 
关系 模型 不 适用 于 以 查询 为 主 的 数据 仓库 系统 。 在 完全 规范 化 的 环境 中 ,数据 模型 形成 的 
数据 表 的 数据 量 都 是 比较 小 的 ,为 完成 对 这 些 * 小 ” 表 的 处 理 需 要 应 用 程序 对 这 些 表 进行 动 
态 互 联 操作 ,这 需要 在 不 同 表 之 间 进 行 多 个 1/O 操作 ,对 于 数据 量 十 分 庞大 的 数据 仓库 ,这 
种 多 表 连 接 操作 的 时 间 代 价 太 大 ,对 决策 效率 的 提高 非常 不 利 。 

因此 在 数据 仓库 中 需要 进行 数据 的 非 规范 化 的 处 理 , 以 减少 对 表 联 结 的 需求 ,提高 数据 
仓库 性 能 ,提高 查询 效率 ,同时 也 减少 编写 专门 决策 支持 应 用 程序 的 必要 性 ,可 以 让 用 户 运 
用 一 些 专 门 的 查询 工具 ,更 容易 地 访问 数据 ,用 户 还 能 以 直观 的 易于 理解 的 工具 查看 数据 。 
因此 ,在 数据 仓库 的 模型 构建 中 ,有 时 为 了 提高 数据 仓库 的 运行 效率 ,需要 进行 数据 模型 的 
反 规范 化 处 理 。 因 为 数据 仓库 属于 分 析 型 应 用 系统 ,系统 的 使 用 者 是 分 析 人 员 决策 人 员 ， 
对 他 们 而 言 , 记 住 实体 -关系 及 其 属性 是 不 可 能 的 ,因此 系统 的 分 析 操 作 难 以 从 具体 的 属性 
入 手 进行 ,而 要 基于 集成 或 某 种 主题 来 组 织 数据 。 分 析 型 应 用 需要 的 是 快速 ,灵活 、 直 观 的 
数据 检索 也 是 关系 模型 无 法 支持 的 ,这 就 要 求 寻找 新 的 数据 模型 。 

数据 仓库 数据 模型 设计 的 核心 问题 是 多 维 数据 的 表示 与 存储 的 问题 ,因此 多 维 数据 模 
型 成 为 当前 数据 仓库 数据 模型 设计 时 的 首选 。 多 维 数据 建 模 以 直观 的 方式 组 织 数 据 , 支 持 
高 性 能 的 数据 访问 。 多 维 数据 模型 较为 普遍 地 采用 星 型 模型 .雪花 模型 的 模式 。 


1. 星 型 模型 


星 型 模型 是 一 种 多 维 的 数据 关系 , 它 由 一 个 主题 事实 表 (fact table) 和 一 组 维 表 
(dimension table) 组 成 。 每 个 维 表 都 有 一 个 维 作为 主键 ,所 有 这 些 维 则 组 合成 事实 表 的 主 
键 ,换言之 ,事实 表 主 键 的 每 个 元 素 都 是 维 表 的 外 键 。 事 实 表 的 非 主 属性 称 为 事实 (fact)， 
它们 一 般 都 是 数值 或 其 他 可 以 进行 计算 的 数据 ;而 维 大 都 是 文字 、 时 间 等 类 型 的 数据 。 星 型 
模型 速度 快 是 在 于 针对 各 个 维 作 了 大 量 的 预 处 理 , 如 按照 维 进行 预先 的 统计 、 分 类 ,排序 等 。 
因此 ,在 星 型 模式 设计 的 数据 仓库 中 , 作 报 表 的 速度 虽然 很 快 ,但 由 于 存在 大 量 的 预 处 理 , 其 

»。40 。 


建 模 过 程 相对 来 说 就 比较 慢 。 当 业务 问题 发 生变 化 ,原来 的 维 不 能 满足 要 求 时 ,需要 增加 新 
的 维 。 由 于 事实 表 的 主键 由 所 有 维 表 的 主键 组 成 ,这 种 维 的 变动 将 是 非常 复杂 、 非 常 耗 时 
的 。 星 型 模式 另 一 个 显著 的 缺点 是 数据 的 宛 余 量 很 大 。 星 型 模式 比较 适合 于 预先 定义 好 的 
问题 ,如 需要 产生 大 量 报表 的 场合 ; 而 不 适合 于 动态 查询 多 .系统 可 扩展 能 力 要求 高 或 者 数 
据 量 很 大 的 场合 。 因 此 , 星 型 模式 在 一 些 要 求 大 量 报表 的 部 门 数据 集 市 中 有 较 多 的 应 用 。 
Adventure Works Cycles 公司 销售 分 析 星 型 图 如 图 2.6 所 示 。 


2. 雪花 模型 


雪花 模型 是 对 星 型 模型 的 扩展 。 设 计 星 型 模型 时 确定 了 概念 模型 中 的 指标 实体 和 维度 
实体 , 当 构 成 星 型 模型 后 ,为 了 对 相关 维度 进行 更 加 深入 的 分 析 , 经 常 要 设计 雪花 模型 ,在 星 
型 模型 的 维度 实体 增加 需要 进行 深入 分 析 的 详细 类 别 实体 。 雪 花 模型 对 星 型 模型 的 维度 表 
进一步 标准 化 ,对 星 型 模型 中 的 维 表 进 行 了 规范 化 处 理 。 雪 花 模 型 通过 对 维 表 的 分 类 细 化 
描述 ,对 于 主题 的 分 类 详细 查询 具有 良好 的 响应 能 力 。 但 由 于 雪花 模型 的 构造 在 本 质 上 是 
一 种 数据 模型 的 规范 化 处 理 , 会 给 数据 仓库 不 同 表 的 联接 操作 带 来 困难 。Adventure 
Works Cycles 公司 销售 分 析 雪 花 模型 如 图 2.7 所 示 。 


销售 分 析 产品 类 别 


图 2.6 Adventure Works Cycles 公司 图 2.7 Adventure Works Cycles 公司 销售 
销售 分 析 星 型 图 分 析 雪 花 模 型 图 


完成 概念 模型 设计 以 后 ,必须 编制 数据 仓库 开发 的 概念 模型 文档 ,并 对 概念 模型 进行 
评价 。 

(1) 概念 模型 设计 文档 。 概 念 模型 的 设计 文档 主要 包含 数据 仓库 的 开发 需求 分 析 报 
告 .概念 模型 分 析 报 告 .概念 模型 和 概念 模型 的 评审 报告 。 数 据 仓 库 开发 需求 分 析 报 告 是 概 
念 模型 设计 的 依据 ,如 果 需 求 分 析 报 告 得 不 到 用 户 的 认同 ,概念 模型 的 分 析 设 计 就 很 难 令 人 
信服 。 数 据 仓库 需求 分 析 报 告 应 该 以 用 户 的 决策 问题 .决策 分 析 中 所 需要 的 信息 为 主线 展 
开 。 概 念 模型 分 析 报 告 和 概念 模型 是 概念 模型 设计 的 主要 成 果 。 概 念 模型 的 评审 报告 是 对 
概念 模型 评审 的 内 容 和 结论 。 

(2) 概念 模型 的 评审 。 在 数据 仓库 的 开发 过 程 中 ,需要 常常 进行 阶段 型 的 评审 ,这 种 评 
审 对 于 数据 仓库 的 正确 开发 是 极其 重要 的 。 通 过 经 常 性 的 评审 ,可 将 数据 仓库 开发 时 期 的 
错误 及 时 加 以 纠正 ,避免 这 些 错误 在 完成 数据 仓库 以 后 才 被 发 现 ,造成 巨大 的 损失 。 在 概念 
模型 的 评审 中 ,需要 确定 概念 模型 是 否 完整 ,准确 的 描述 了 用 户 的 决策 分 析 环 境 。 通 过 概念 
模型 评审 ,使 得 数据 仓库 开发 人 员 可 以 找到 一 个 比较 理想 的 数据 仓库 解决 方案 ,并 且 能 够 进 
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一 步 获得 用 户 的 积极 支持 。 在 评审 过 程 中 ,需要 由 项 目 负责 人 就 评审 的 目标 向 评审 人 员 介 
绍 ,确定 评审 的 议程 ,由 专门 人 员 记 录 评 审 过 程 。 在 评审 过 程 中 ,还 需要 对 评审 问题 进行 引 
导 , 使 评审 工作 能 够 按照 预定 的 方向 发 展 。 如 果 概 念 模型 评审 是 数据 仓库 开发 项 目 确定 以 
来 首次 进行 的 评审 工作 ,还 需要 就 数据 仓库 开发 工作 中 的 “用 户 参 与 ”这 一 关键 问题 进行 确 
认 。 主 要 确认 : 用 户 是 否 已 经 和 项 目 开发 成 员 之 间 建 立 了 稳定 的 联系 ? 用 户 怎样 参与 到 数 
据 仓 库 的 不 同 开发 阶段 中 ? 开发 人 员 怎 样 了 解 用 户 不 断 变化 的 决策 支持 的 信息 需求 ? 数据 
仓库 的 开发 过 程 中 建立 稳定 的 开发 人 员 与 用 户 的 关系 是 极其 重要 的 ,这 种 关系 是 否 得 到 建 
立 必须 在 概念 模型 评审 中 得 到 确认 。 

(3) 概念 模型 评审 人 员 。 在 概念 模型 的 评审 中 ,需要 数据 仓库 项 目 负 责 人 、 数 据 仓库 分 
析 人 员 ,数据 仓库 设计 人 员 和 数据 仓库 用 户 参与 。 参 加 评审 人 员 应 该 控制 在 10 人 以 下 ,不 
宜 过 多 。 如 果 参 加 人 员 过 多 ,有 的 评审 人 员 就 不 愿意 将 自己 的 真实 意见 表达 清楚 。 在 参加 
评审 人 员 中 ,用 户 尤 其 是 主题 用 户 的 参加 是 十 分 重要 的 。 只 有 让 用 户 清楚 的 全 面 的 表达 自 
己 对 概念 模型 的 看 法 后 ,才能 使 数据 仓库 的 开发 模型 得 到 更 好 的 改进 。 

(4) 概念 模型 的 评审 内 容 。 在 进行 概念 模型 的 评审 之 前 ,概念 模型 设计 人 员 必 须 准 备 
好 数据 仓库 开发 任务 书 . 用 户 决策 分 析 信 息 需 求 调查 表 、 数 据 仓库 主题 说 明 书 、.E-R 图 、 星 型 
模型 和 雪花 模型 等 概念 模型 设计 成 果 。 在 对 概念 模型 评审 之 时 ,要 将 注意 力 集中 在 数据 仓 
库 开发 任务 书 是 否 真实 地 反映 了 用 户 开发 数据 仓库 的 主要 目的 ,用 户 决 策 分 析 信 息 需 求 调 
查 表 是 否 准 确 全 面 的 描述 了 用 户 的 决策 分 析 的 信息 需求 ,数据 仓库 主题 是 否 能 够 全 面 地 包 
含 用 户 的 决策 信息 .E-R 图 . 星 型 模型 和 雪花 模型 是 否 真 实地 反映 用 户 决策 分 析 的 环境 。 


2.3 ”数据 仓库 的 逻辑 模型 


逻辑 建 模 是 数据 仓库 建 模 中 的 重要 一 环 ,是 概念 模型 到 物理 模型 转换 的 桥梁 。 它 能 直 
接 反 映 出 业务 部 门 的 需求 ,同时 对 系统 的 物理 实施 有 着 重要 的 指导 作用 , 它 通过 实体 和 关系 
勾勒 出 整个 企业 的 数据 蓝图 。 数 据 仓库 的 数据 模型 与 传统 数据 库 相 比 ,主要 区 别 如 下 : 

(1) 数据 仓库 的 数据 模型 不 包含 纯 操 作 型 的 数据 。 

(2) 数据 仓库 的 数据 模型 扩充 了 码 结构 ,增加 了 时 间 属 性 作为 码 的 一 部 分 。 

(3) 数据 仓库 的 数据 模型 增加 了 一 些 导 出 数据 。 

数据 仓库 的 逻辑 模型 与 数据 仓库 物理 实现 时 所 使 用 的 数据 库 有关, 由 于 目前 数据 仓库 
一 般 都 建立 在 关系 数据 库 的 基础 上 ,因此 数据 仓库 设计 过 程 中 所 采用 的 逻辑 模型 主要 是 关 
系 模型 。 关 系 模型 概念 简单 清晰, 用户 易 懂 、 易 用 ,有 严格 的 数学 基础 和 在 此 基础 上 的 数据 
关系 理论 。 在 进行 数据 仓库 的 逻辑 模型 设计 时 ,一 般 需 要 完成 主题 分 析 、 建 立 维度 模型 . 确 
定 粒度 层次 划分 确定 数据 分 割 策 略 等 工作 。 

数据 仓库 是 面向 主题 的 ,建立 数据 仓库 要 按照 主题 来 建 模 ,主题 域 的 划分 是 数据 仓库 的 
基础 和 成 败 的 关键 。 人 逻辑 模型 中 主题 分 析 是 对 概念 模型 设计 阶段 中 确定 的 多 个 基本 主题 进 
行进 一 步 分 析 ,并 建立 某 主 题 分 析 的 维度 模型 。 因 此 ,在 逻辑 模型 建 模 过 程 中 进行 的 工作 主 
要 有 : 

(1) 事实 表 模 型 设计 。 分 析 丰 富 主题 域 ,确定 当前 要 装载 的 主题 ,进行 事实 表 模 型 
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设计 。 

(2) 维度 表 模 型 设计 。 维 度 建 模 的 目的 是 在 为 用 户 提供 一 组 全 局 数据 视图 的 基础 上 进 
行 某 一 主题 的 业务 分 析 。 因 为 在 数据 仓库 的 维度 建 模 技 术 中 ,主要 从 用 户 需 求 范围 出 发 , 考 
虑 指标 和 维度 及 其 各 种 主题 下 的 分 析 参 数 。 

(3) 关系 模式 定义 。 数 据 仓库 的 每 个 主题 都 是 由 多 个 表 来 实现 的 ,这 些 表 之 间 依 靠 主 
题 的 公共 码 键 联系 在 一 起 ,形成 一 个 完整 的 主题 。 在 概念 模型 设计 时 ,确定 了 数据 仓库 的 基 
本 主题 ,并 对 每 个 主题 的 公共 码 键 ,基本 内 容 等 做 了 描述 。 在 这 里 ,将 要 对 选 定 的 当前 实施 
的 主题 进行 模式 划分 ,形成 多 个 表 , 并 确定 各 个 表 的 关系 模式 。 


2.3.1 事实 表 模 型 设计 


在 概念 模型 设计 中 ,已 经 确定 了 几 个 基本 的 主题 域 , 但 是 ,数据 仓库 的 设计 方法 是 一 个 
逐步 求 精 的 过 程 , 在 进行 设计 时 ,一 般 是 一 次 一 个 主题 或 一 次 若干 个 主题 地 逐步 完成 的 。 所 
以 ,还 必须 对 概念 模型 设计 步 又 中 确定 的 几 个 基本 主题 域 进行 分 析 ,一 并 选择 首先 要 实施 的 
主题 域 。 选 择 第 一 个 主题 域 所 要 考虑 的 是 它 要 足够 大 ,以 便 使 得 该 主题 域 能 建设 成 为 一 个 
可 应 用 的 系统 ; 它 还 要 足够 小 ,以 便于 开发 和 较 快 地 实施 。 如 果 所 选择 的 主题 域 很 大 并 且 很 
复杂 ,可 以 针对 它 的 一 个 有 意义 的 子 集 来 进行 开发 。 在 每 一 次 的 反馈 过 程 中 ,都 要 进行 主题 
域 的 分 析 。 以 Adventure Works Cycles 公司 为 例 ,现在 可 以 在 商品 .销售 和 客户 等 主题 上 
增加 能 进一步 说 明 主 题 的 属性 组 ,如 表 2-6 所 示 。 

表 2-6 Adventure Works Cycles 公司 部 分 主题 的 详细 描述 
主题 名 公共 键 属性 组 
基本 信息 : 商品 ID .商品 名 称 、 类 型 .颜色 等 
商品 商品 ID 采购 信息 : 商品 ID .供应 商 ID .供应 价格 .供应 日 期 .供应 量 等 
库存 信息 : 商品 ID 仓库 ID 库存 量 .日 期 等 
基本 信息 : 销售 单 ID .销售 地 址 等 
销售 信息 : 客户 ID ,商品 ID .销售 单 ID .销售 价格 .销售 时 间 .销售 数量 等 


基本 信息 : 客户 ID 客户 姓名 .地 址 联系 电话 等 
经 济 信息 : 客户 ID ,收入 信息 等 


销售 销售 单 ID 


客户 客户 ID 


度量 是 客户 发 生 事件 或 动作 的 事实 记录 。 例 如 客户 购买 商品 ,度量 指标 有 购买 次 数 、 购 
买 商品 的 金额 ,购买 商品 的 数量 等 。 度 量变 量 的 取 值 可 以 是 离散 的 数值 ,也 可 以 是 连续 的 数 
值 ,还 可 以 在 某 个 元 素 集合 内 取 值 。 例 如 ,客户 对 公司 服务 质量 评价 可 以 是 “ 优 、 良 、 中 、 差 ” 
集合 中 的 一 个 ;客户 购买 商品 的 金额 是 连续 的 数值 ;客户 购买 商品 次 数 是 离散 的 数值 。 

事实 表 是 在 星 型 模型 或 雪花 模型 中 用 来 记录 业务 事实 并 作 相 应 指标 统计 的 表 , 事 实 表 
有 如 下 特征 : 

(1) 记录 数量 多 。 因 此 事实 表 应 当 尽 量 减 小 一 条 记录 的 长 度 ,避免 因 事实 表 过 大 而 难 
于 管理 。 
(2) 事实 表 中 除了 度量 变量 外 ,其 余 字 段 都 是 维 表 或 者 中 间 表 (雪花 模型 ) 的 关系 。 
(3) 如 果 事实 相关 的 维度 很 多 , 则 事实 表 中 的 字段 会 比较 多 。 
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另外 ,按照 事实 表 中 度量 的 可 加 性 情况 ,可 以 把 事实 表 及 其 包含 的 事实 分 为 4 种 类 型 。 
(1) 事务 事实 。 以 组 织 事件 的 单一 事务 为 基础 ,通常 只 包含 事实 的 次 数 。 
(2) 快照 事实 。 以 组 织 在 某 一 特定 时 间 和 特殊 状态 为 基础 , 即 某 一 段 时 间 内 才 出 现 的 


结果 。 
(3) 线性 项 目 事实 。 这 类 事实 通常 用 来 储存 关于 企业 组 ” 表 2-7 Adventure Works Cycles 
织 经 营 项 目的 详细 信息 。 包 括 表 现 与 企业 相关 的 个 别 线性 项 公司 销售 事实 表 模 型 
目 所 有 关键 性 能 指标 ,如 销售 数量 、 销 售 金额 \ 成 本 等 。 销售 事实 表 
(4) 事件 事实 。 通 常 表示 事件 发 生 与 否 及 一 些 非 事 实 本 客户 
身 具 备 的 细节 。 它 所 表现 的 是 一 个 事件 发 生 后 的 状态 变化 ， 商品 人 D 
如 产品 在 促销 期 间 的 销售 状态 ( 卖 出 还 是 没有 卖 出 )。 ate 
另外 ,在 事实 表 模型 设计 中 还 需要 注意 到 派生 事实 。 派 区 域 ID 
生 事实 主要 有 两 种 : 一 种 是 可 以 用 同一 事实 表 中 的 其 他 事实 销售 数量 
计算 得 到 ,例如 ,销售 中 的 商品 销售 均 价 可 以 用 商品 的 销售 总 销售 金额 


金额 和 销售 数量 计算 得 到 ; 另 一 种 是 非 加 性 事实 ,例如 各 种 商 ea 


品 的 利润 率 等 。 
例如 ,可 以 设计 Adventure Works Cycles 公司 的 销售 事实 表 模 型 ,如 表 2-7 所 示 。 


2.3.2 维度 表 模 型 设计 


数据 仓库 是 用 于 决策 支持 的 。 管 理 人 员 进 行 决策 分 析 时 ,经 常 需要 用 一 个 对 决策 活动 
有 重要 影响 的 因素 进行 决策 分 析 。 这 些 决策 分 析 的 角度 或 决策 分 析 的 出 发 点 就 构成 了 数据 
仓库 中 的 维 ,数据 仓库 中 的 数据 就 是 靠 这 些 维 来 组 织 , 维 就 是 数据 仓库 识别 数据 的 索引 。 数 
据 仓库 中 的 维 ,一般 具有 层次 性 。 其 水 平 层次 由 维度 层次 中 具有 相同 级 别 的 字段 值 构成 , 垂 
直 层 次 则 由 维度 层次 结构 中 具有 不 同 级 别 的 字段 值 构成 。 在 数据 仓库 设计 中 根据 需求 获取 
数据 仓库 的 维 , 构 成 数据 仓库 的 模型 。 数 据 仓 库 中 的 多 种 维 交点 会 构成 数据 仓库 用 户 需 要 
观察 的 事务 。 观 察 事务 角度 不 同时 ,围绕 该 事务 会 产生 多 个 观察 角度 , 即 产生 了 多 维 。 数 据 
仓库 的 立方 体 就 是 一 个 包含 用 户 需 要 观察 数据 的 集合 体 ,立方 体 与 星 型 模型 可 以 相互 转换 。 

维度 建 模 的 目的 是 在 为 用 户 提供 一 组 全 局 数据 视图 的 基础 上 进行 某 一 主题 的 业务 分 
析 。 因 为 在 数据 仓库 的 维度 建 模 技 术 中 ,主要 从 用 户 需 求 范 围 出 发 ,考虑 指标 和 维度 及 其 各 
种 主题 下 的 分 析 参 数 。 例 如 根据 Adventure Works Cycles 公司 销售 情况 分 析 , 其 指标 和 维 
度 及 其 各 种 主题 下 的 分 析 参 数 可 综合 如 下 : 

。 某 些 商品 是 否 仅仅 在 某 一 地 区 销售 ? 

。 每 种 类 型 商品 各 个 时 间 段 销售 量 及 销售 金额 是 多 少 ? 

。 各 个 客户 购买 商品 次 数 ? 

。 客户 及 时 付款 了 吗 ? 

。 各 类 型 商品 预算 收入 是 多 少 ? 

。 各 销售 员 销 售 业绩 如 何 ? 

根据 以 上 问题 的 关联 维度 ,形成 Adventure Works Cycles 公司 销售 情况 分 析 的 维度 模 

md 


型 ,如 表 2-8 所 示 。 
表 2-8 Adventure Works Cycles 公司 销售 情况 分 析 的 维度 模型 


时 间 维 
时 间 ID 
年 产品 ID 
季 产品 类 别 
月 产品 名 称 
日 


在 这 个 模型 中 ,Adventure Works Cycles 公司 有 些 决策 管理 者 想 要 按照 年 . 季 .月 .日 的 
时 间 层 次 了 解 公司 的 销售 情况 ;有 些 决策 管理 者 想 要 按照 产品 名 称 .产品 类 别 了 解 公 司 的 销 
售 情况 ;有 些 决策 管理 者 想 要 按照 销售 员 所 在 的 区 域 层 次 了 解 公 司 的 销售 情况 ;有 些 决 策 管 
理 者 想 要 按照 国家 、 省 ( 州 ) 城市 、 销 售 点 的 区 域 层 次 了 解 公 司 的 销售 情况 ;有 些 决 策 管理 者 
想 要 按照 客户 信用 客户 收入 等 层次 了 解 公 司 的 销售 情况 。 

这 样 ,就 可 以 建立 销售 情况 分 析 的 逻辑 模型 ,如 图 2. 8 所 示 。 


产品 维 客户 维 
产品 ID 销售 事实 表 客户 ID 
记名 客 ID iD 
i NN 商品 ID 信 
销售 单 ID : 
时 间 ID 
| 时 间 维 | 区 域 ID 
时 间 维 销售 数量 区 域 维 
时 间 ID 销售 金额 区 域 ID 
年 商品 利润 率 家 
季 省 州 
月 城市 
日 销售 点 
: 销售 员 维 : 
雇员 ID 
姓名 
区 域 ID 
子 区 域 ID 


图 2.8 Adventure Works Cycles 公司 销售 情况 分 析 的 逻辑 模型 


最 后 ,对 逻辑 模型 进行 评审 ,并 编写 逻辑 模型 的 文档 ,其 内 容 包 括 : 主题 域 分 析 报 告 , 数 
据 粒 度 划分 模型 ,数据 分 割 策略 ,指标 实体 、. 维 实体 与 详细 类 别 实体 的 关系 模式 和 数据 抽取 
模型 。 对 人 逻辑 模型 评审 主要 集中 在 主题 域 是 否 可 以 正确 地 反映 用 户 的 决策 分 析 需 求 ,其 内 
容 包括 : 从 用 户 对 概括 数据 使 用 的 要 求 ,评审 数据 粒度 的 划分 和 数据 分 割 策略 是 否 可 以 满 
足 用 户 决策 分 析 的 需要 ,为 提高 数据 仓库 的 运行 效率 是 否 需要 对 关系 模式 进行 反 规 范 化 处 
理 , 数 据 的 抽取 模型 是 否 正 确 地 建立 了 数据 源 与 数据 仓库 的 对 应 关系 ,数据 的 约束 条 件 和 业 
务 规则 是 否 在 这 些 模型 中 得 到 了 正确 的 反映 等 。 
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2.4 数据 仓库 的 物理 模型 


2.4.1 物理 模型 的 设计 要 点 


数据 仓库 的 物理 模型 就 是 逻辑 模型 在 数据 仓库 中 的 物理 实现 模式 。 物 理 模型 就 像 大 厦 
的 基础 架构 ,数据 仓库 的 数据 从 几 百 吉 字 节 到 几 十 太 字 节 不 等 ,即使 支撑 这 些 数据 的 
RDBMS 无 论 有 多 么 强大 , 仍 不 可 避免 地 要 考虑 到 数据 库 的 物理 设计 。 物 理 模 型 是 逻辑 模 
型 中 各 种 实体 表 的 具体 化 ,例如 表 的 数据 结构 类 型 .索引 策略 .数据 存放 位 置 以 及 数据 存储 
分 配 等 。 在 进行 物理 模型 设计 时 ,要 考虑 1/O 存 取 时 间 、 空 间 利用 率 和 维护 代价 。 

根据 数据 仓库 的 数据 量 大 及 数据 相对 稳定 的 特点 ,可 以 设计 索引 结构 来 提高 数据 存 取 
效率 。 数 据 仓库 中 的 表 通 常 比 OLTP 环境 中 的 表 建 有 更 多 的 索引 。 通 常 表 的 最 大 索引 数 与 
表 规模 成 正比 。 数 据 仓库 是 只 读 环 境 , 建 立 索 引 对 提高 性 能 和 灵活 性 都 很 有 利 。 但 是 表 索 引 
如 果 太 多 , 则 会 使 数据 加 载 时 间 加 长 。 因 此 ,一 般 按 主 关 键 字 和 大 多 数 外 部 关键 字 建 立 索 引 。 

为 确定 数据 仓库 的 物理 模型 ,设计 人 员 必 须 做 这 样 几 方 面 工作 : 

(1) 确定 项 目 资源 ,定义 数据 标准 。 根 据 预 算 和 业务 需求 ,并 参考 以 往 的 数据 仓库 项 目 
经 验 ,对 该 项 目的 成 本 、 周 期 和 资源 进行 估算 ,规范 化 数据 仓库 中 的 数据 。 关 于 项 目 周 期 的 
估算 ,主要 基于 ETL 函数 功能 点 以 及 加 权 后 的 复杂 度 进行 估算 ,因为 ETL 过 程 占据 了 整个 
数据 仓库 项 目的 70% ,ETL 过 程 主 要 是 基于 源 志 一 过 目的 的 原则 进行 处 理 的 ,而 不 同 的 功 
能 点 具有 不 同 的 复杂 度 ,通过 以 往 项 目 经 验 和 专家 评估 ,然后 再 根据 软件 生命 周期 的 划分 ， 
可 以 有 效 地 得 知 项 目的 整体 周期 。 关 于 人 员 的 估算 ,主要 取决 于 人 员 的 工作 经 验 、 素 养 ,对 
新 技术 的 掌握 能 力 ,还 要 考虑 到 人 员 流 动 等 方面 的 人 员 备 份 。 每 一 个 IT 企业 都 应 该 具备 
一 个 有 丰富 的 技能 人 才 的 人 力 资 源 库 , 当 项 目 资源 遇 到 瓶颈 的 时 候 , 就 可 以 考虑 需求 协作 。 

(2) 确定 软 硬 件 配置 。 数 据 仓库 项 目 与 其 他 业务 系统 不 同 , 尤 其 需要 对 数据 容量 进行 
估算 ,这 是 因为 数据 仓库 由 历史 的 、 稳 定 的 .基于 主题 的 .集成 的 等 特性 所 决定 的 , 它 是 对 以 
往 历史 数据 的 集成 ,如 果 项 目 初期 不 加 以 考虑 ,很 快 就 会 造成 灾难 性 的 后 果 。 数 据 仓库 的 容 
量 估 算 应 该 是 可 预见 的 ,首先 确定 核心 明细 数据 的 存储 年 限 , 即 相 关 表 的 平均 字段 长 度 值 x 
每 年 的 记录 数 X (每 年 预计 的 增长 ) ,然后 再 加 上 20% 的 宛 余 ,以 及 磁盘 预 留 的 20% 的 宛 余 ， 
我 们 不 难得 到 数据 仓库 的 预计 容量 。 数 据 仓库 的 处 理 能 力 和 容量 息息相关 ,也 和 具体 的 关 
系数 据 库 的 性 能 息息相关 ,如 何在 Oracle、SQL Server、DB、Sybase 甚至 MySQL 之 间 寻 找 
平衡 , 既 要 考虑 实际 的 预算 ,也 要 视 实际 的 需求 而 定 。 关 于 硬件 的 配置 , 既 需要 发 挥 软件 的 
功能 ,满足 实际 的 处 理 要 求 , 也 要 为 将 来 的 系统 扩展 保留 一 定 的 空间 。 

(3) 要 全 面 了 解 所 选用 的 数据 库 管理 系统 ,特别 是 存储 结构 和 存 取 方法 。 了 解数 据 库 
架构 ,如 关系 数据 库 的 关系 模型 . 星 型 模型 ,多维 数据 库 的 Cube 等 ,及 其 具体 的 数据 库 管理 
系统 软件 和 版 本 等 。 数 据 仓 库 一 般 采 用 分 层 设 计 , 即 ODS 层 .数据 仓库 层 、 数 据 仓 库 聚 合 层 
数据 集 市 等 ,如 图 2.9 所 示 。 数 据 仓库 的 分 层 是 灵活 的 ,没有 固定 的 模式 ,一 切 视 实际 情况 
而 定 。ODS 层 存放 从 原 系 统 采集 来 的 原始 交易 数据 ,只 保存 一 定期 限 内 的 数据 ,同时 ODS 
支持 部 分 近 实时 性 报表 的 展示 。 数 据 仓 库 层 保存 经 过 清洗 ,转换 和 重新 组 织 的 历史 业务 数 

i 


据 , 数 据 将 保留 较 长 时 间 (5 一 10 年 ) 满足 系统 最 细 粒 度 的 查询 需要 。 数 据 仓 库 聚 合 层面 向 
KPI 指标 计算 和 分 析 ,支持 汇总 层面 交易 级 的 指标 查询 ,提高 汇总 级 的 KPI 数据 展示 速度 
和 数据 保存 时 间 。 保 存 较 长 的 历史 数据 。 数 据 集 市 是 基于 部 门 或 者 某 一 类 特定 分 析 主 题 需 
要 ,从 企业 级 数据 仓库 单独 获取 的 一 个 数据 的 逻辑 或 者 物理 的 子 集 。 


ODS 层 = 数据 仓库 
(支持 部 分 “| 抽取、 清洗、 \ (满足 最 细 粒 


实时 性 报表 ) 上 装载 、 刷 新。 /| 度 查询 需要 ) 


装载 、 刷 新 、 


(数据 集 市 ) 


图 2.9 数据 仓库 分 层 设 计 


(4) 根据 具体 使 用 的 数据 库 管 理 系统 ,将 实体 和 实体 特征 物理 化 ,具体 包括 字段 设计 、 
物理 记录 设计 、 反 规范 化 设计 (提高 查询 性 能 ) 等 。 数 据 抽取 策略 : 制定 系统 的 主题 数据 库 
ETL 抽取 方案 来 满足 主题 数据 库 的 业务 处 理 、 数 据 仓 库 系统 分 析 及 决策 支持 分 析 的 需要 ， 
同时 必须 保证 不 能 影响 业务 系统 的 性 能 。 数 据 转换 策略 : 数据 转换 是 指 对 从 业务 系统 中 抽 
取 的 源 数 据 根据 主题 数据 库 系 统 模型 的 要 求 ,进行 数据 的 转换 清洗 、 拆 分 等 处 理 , 保 证 来 自 
不 同系 统 ,不 同 格式 的 数据 的 一 致 性 和 完整 性 ,并 按 要 求 装 入 主题 数据 库 。 数 据 加 载 策略 : 
从 业务 系统 中 抽取 、 转 换 后 的 数据 加 载 到 主题 数据 库 系 统 中 。 

(5) 了 解数 据 环 境 ,数据 的 使 用 频率 使 用 方式 .数据 规模 及 响应 时 间 要 求 等 ,这 些 都 是 
对 时 间 和 空间 效率 进行 平衡 和 优化 的 重要 依据 。 

(6) 了 解 外 部 存储 设备 的 特征 ,只 有 这 样 才能 在 数据 的 存储 需求 与 外 部 存储 设备 条 件 
两 者 之 间 获 得 平衡 。 

此 外 ,设计 人 员 还 必须 了 解数 据 环境 数据 的 使 用 频率 、 使 用 方式 ,数据 规模 及 响应 时 间 
要 求 等 ,了 解 外 部 存储 设备 的 特征 ,了 解 物理 文件 的 设计 方式 、 索 引 的 使 用 与 选择 方式 及 
RAID 等 ,这 些 是 对 时 间 和 空间 效率 进行 平衡 和 优化 的 重要 依据 ,只 有 这 样 才能 在 数据 的 存 
储 需求 与 外 部 存储 设备 条 件 两 者 之 间 获 得 平衡 。 


2.4.2 数据 仓库 物理 模型 的 存储 结构 


在 物理 设计 时 ,常常 要 按 数据 的 重要 性 、 使 用 频率 及 对 响应 时 间 的 要 求 进行 分 类 ,并 将 
不 同类 型 的 数据 分 别 存 储 在 不 同 的 存储 设备 中 。 重 要 性 高 .经常 存 取 并 对 反应 时 间 要 求 高 
的 数据 存放 在 高 速 存储 设备 上 ; 存 取 频率 低 或 对 存 取 响应 时 间 要 求 低 的 数据 则 可 以 存放 在 
低速 存储 设备 上 。 另 外 ,在 设计 时 还 要 考虑 数据 在 特定 存储 介质 上 的 布局 。 在 设计 数据 的 
布局 时 要 注意 遵循 以 下 原则 。 

(1) 不 要 把 经 常 需要 连接 的 几 张 表 放 在 同一 存储 设备 上 ,这 样 可 以 利用 存储 设备 的 并 
行 操作 功能 加 快 数据 查询 的 速度 。 
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(2) 如 果 几 台 服 务 器 之 间 的 连接 会 造成 严重 的 网 络 业务 量 的 问题 , 则 要 考虑 服务 器 复 
制 表 格 ,因为 不 同 服务 器 之 间 的 数据 连接 会 给 网 络 带 来 沉重 的 数据 传输 负担 。 

(3) 考虑 把 整个 企业 共享 的 细节 数据 放 在 主机 或 其 他 集中 式 服务 器 上 ,提高 这 些 共 享 
数据 的 使 用 速度 。 

(4) 不 要 把 表格 和 它们 的 索引 放 在 同一 设备 上 。 一般 可 以 将 索引 存放 在 高 速 存储 设备 
上 ,而 表格 则 存放 在 一 般 存 储 设备 上 ,以 加 快 数据 的 查询 速度 。 

(5) 在 对 服务 器 进行 处 理 时 往往 要 进行 大 量 的 等 待 磁盘 数据 的 工作 ,此 时 ,可 以 在 系统 
中 使 用 RAID(Redundant Array of Inexpensive Disk, 廉 价 见 余 磁 盘 阵 列 )。 

。 RAID0: 数据 带 状 分 布 在 多 个 磁盘 上 ,无 元 余 , 高 性 能 , 低 成 本 ,但 磁盘 损坏 会 导致 


整个 磁盘 整 列 无 法 使 用 。 

。RAID1: 磁盘 镜像 ,数据 写 人 成 对 的 宛 余 驱动 器 ,可 读 性 能 高 ,可 靠 性 高 ,但 价格 
昂贵 。 

。 RAID2: 数据 按 位 或 块 交错 分 布 , 校 验 码 由 额外 驱动 器 存储 ,高 性 能 , 纠 错 一 位 , 验 
错 两 位 ,但 价格 昂贵 。 

。 RAID3: 数据 按 位 或 块 交错 存储 ,一 个 驱动 器 存储 校 验 数据 ,对 大 块 数 据 性 能 较 高 ， 
不 支持 运行 恢复 。 

。RAID4: 数据 按 扇 区 交错 存储 , 校 验 数 据 由 专门 驱动 器 存储 ,处 理 多 个 系统 的 IO 
操作 ,两 个 驱动 器 。 


。RAID5: 数据 按 扁 区 交错 存储 于 多 个 驱动 器 ,不 需 专 门 的 校 验 驱动 器 ,需要 两 个 或 
三 个 驱动 器 , 写 人 能 力 弱 。 
如 可 建立 Adventure Works Cycles 公司 销售 事件 存储 结构 关系 模型 ,如 表 2-9 所 示 。 


表 2-9 Adventure Works Cycles 公司 销售 事件 存储 结构 关系 模型 


字段 名 说 明 描 述 主键 /外 键 数据 类 型 数据 类 型 说 明 
TimeID 时 间 码 外 键 Integer 整数 
ProductID 产品 码 外 键 Integer 整数 
CustomerID 顾客 码 外 键 Integer 整数 
SaleQuantity 销售 数量 = Integer 整数 
SaleAmount 销售 额 3 Money 正 金额 数 


可 建立 Adventure Works Cycles 公司 商品 关系 存储 结构 关系 模型 ,如 表 2-10 所 示 。 
表 2-10 Adventure Works Cycles 公司 商品 关系 存储 结构 关系 模型 


字段 名 说 明 描述 主键 /外 键 数据 类 型 数据 类 型 说 明 
ProductID 产品 码 主键 Integer 整数 
ProductNumber 商品 编号 = char(10) 字符 
ProductName 商品 名 称 = char(20) 字符 
Subcategory 子 类 一 char(5) 字符 
Category 大 类 char(5) 字符 


SalePrice 售 价 Ss Money 正 金 额 数 


2.4.3 数据 仓库 物理 模型 的 索引 构建 


数据 仓库 的 数据 量 很 大 ,因而 需要 对 数据 的 存 取 路 径 进行 仔细 地 设计 和 选择 。 由 于 数 
据 仓 库 的 数据 一 般 很 少 更 新 ,所 以 可 以 设计 索引 结构 来 提高 数据 存 取 效率 。 数 据 仓库 中 的 
表 通 常 要 比 联机 事务 处 理 系统 (COLTP) 中 的 表 建 立 更 多 的 索引 , 表 中 应 用 的 最 大 索引 数 应 
与 表格 的 规模 成 正比 。 数 据 仓 库 是 个 只 读 的 环境 ,建立 索引 可 以 取得 灵活 性 ,对 性 能 极为 有 
利 。 但 是 表 若 有 很 多 索引 ,那么 数据 加 载 时 间 就 会 延长 ,因此 索引 的 建立 需要 进行 综合 的 考 
虑 。 在 建立 索引 时 ,可 以 按照 索引 使 用 的 频率 由 高 到 低 逐 步 添 加 ,直到 某 一 索引 加 入 后 ,使 
数据 加 载 或 重组 表 的 时 间 过 长 时 ,就 结束 索引 的 添加 。 

在 数据 仓库 中 ,设计 人 员 可 以 考虑 对 各 个 数据 存储 建立 专用 的 索引 和 复杂 的 索引 ,以 获 
取 较 高 的 存 取 效 率 , 虽 然 建立 它们 需要 付出 一 定 的 代价 ,但 建立 后 一 般 不 需要 过 多 的 维护 。 

最 初 ,一 般 都 是 按 主 关键 字 和 大 多 数 外 部 关键 字 建立 索引 ,通常 不 要 添加 很 多 的 其 他 索 

。 在 表 建 立 大 量 的 索引 后 ,对 表 进 行 分 析 等 具体 使 用 时 ,可 能 需要 许多 索引 ,这 会 导致 表 
we en 如 果 从 主 关键 字 和 外 部 关键 字 着 手 建 立 索 引 , 并 按照 需要 添加 其 
他 索引 ,就 会 避免 首先 建立 大 量 的 索引 带 来 的 后 果 。 如 果 表 格 过 大 ,而 且 需 要 另外 增加 索 
引 , 那 么 可 以 将 表 进行 分 割 处 理 。 如 果 一 个 表 中 所 有 用 到 的 列 都 在 索引 文件 中 ,就 不 必 访 问 
事实 表 , 只 要 访问 索引 就 可 以 达到 访问 数据 的 目的 ,以 此 来 减少 1/O 操作 。 如 果 表 太 大 ,并 
且 经 常 要 对 它 进行 长 时 间 的 扫描 ,那么 就 要 考虑 添加 一 张 概括 表 以 减少 数据 的 扫描 任务 。 

例如 Adventure Works Cycles 公司 销售 订单 按 销售 订单 号 做 B-Tree 索引 ,如 图 2. 10 


所 示 。 
20020701001-20020701050 
20020701051-20020701100 


20020701001-20020701025 20020701051-20020701070 
20020701026-20020701050 | 20020701071-20020701100 


20020701001 20020701026 20020701051 20020701071 
20020701002 | 20020701027 个 20020701070 20020701072 
1/ \ 
1 \ 
/1 \\ 
/1 \\ 


20020701026 一 一 地 址 
20020701027 一 一 地 址 


指向 数据 行 
的 指针 
图 2.10 B-Tree 索引 示例 


2.4.4 数据 仓库 物理 模型 的 优化 问题 


数据 仓库 物理 模型 进行 优化 时 可 以 考虑 以 下 解决 方案 : 
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(1) 合并 表 与 簇 文件 (clustering file) : 几 个 表 的 记录 分 散 存放 在 几 个 物理 块 中 时 ,多 个 
表 的 存 取 和 连接 操作 的 代价 会 很 大 。 

(2) 建立 数据 序列 : 按照 某 一 固定 的 顺序 访问 并 处 理 一 组 数据 记录 。 将 数据 按照 处 理 
顺序 存放 到 连续 的 物理 块 中 ,形成 数据 序列 。 

(3) 引入 宛 余 , 反 规范 化 处 理 : 一 些 表 的 某 些 属性 可 能 在 许多 地 方 都 要 用 到 ,将 这 些 属 
性 复制 到 多 个 主题 中 ,可 以 减少 处 理 时 存 取 表 的 个 数 。 

(4) 表 的 物理 分 割 ( 分 区 ): 每 个 主题 中 的 各 个 属性 存 取 频率 是 不 同 的 。 将 一 张 表 按 各 
属性 被 存 取 的 频率 分 成 两 个 或 多 个 表 , 将 具有 相似 访问 频率 的 数据 组 织 在 一 起 。 

(5) 生成 派出 数据 : 在 原始 数据 的 基础 上 进行 总 结 或 计算 ,生成 派出 数据 ,可 以 在 应 用 
中 直接 使 用 这 些 派 出 数据 ,减少 LO 次数, 免 去 计算 或 汇总 步骤 ,在 更 高 级 别 上 建立 了 公用 
数据 源 ,避免 了 不 同 用 户 重复 计算 可 能 产生 的 偏差 。 

例如 , 当 几 个 表 的 记录 分 散 存 放 在 几 个 物理 块 中 时 ,多 个 表 的 存 取 和 连接 操作 的 代价 会 
很 大 。 这 时 可 以 将 需要 同时 访问 的 表 在 物理 上 顺序 存放 ,或 者 直接 通过 公共 关键 字 将 相互 
关联 的 记录 放 在 一 起 。 如 产品 表 和 产品 存储 关系 表 是 2 个 经 常 需要 同时 访问 的 表 , 在 对 存 
储 关系 表 进行 查询 后 ,需要 通过 产品 ID 到 产品 表 中 获取 产品 的 其 他 基本 属性 ,以 比较 直观 
的 方式 显示 给 最 终 用 户 。 这 时 ,可 以 将 2 个 表 的 记录 通过 公共 关键 字 将 相互 关联 的 记录 放 
在 一 起 。 设 计时 可 以 先 存放 产品 ID 为 1 的 商品 在 商品 表 中 的 记录 ,然后 将 仓储 关系 表 中 同 
产品 1 相关 的 2 条 记录 放 在 其 后 。 这 样 ,在 进行 数据 访问 时 ,就 可 以 提高 /O 的 效率 。 表 的 
归并 只 有 在 访问 序列 经 常 出 现 或 者 表 之 间 具 有 很 强 的 访问 相关 性 时 才 有 较 好 的 效果 ,对 于 
很 少 出 现 的 访问 序列 和 没有 强 相关 性 的 表 , 使 用 表 的 归并 没有 效果 。 

此 外 ,数据 的 布局 原则 上 不 要 把 经 常 需要 连接 的 几 张 表 放 在 同一 存储 设备 上 。 如 果 几 
台 服 务 器 之 间 的 连接 会 造成 严重 的 网 络 业务 量 的 问题 , 则 要 考虑 服务 器 复制 表格 。 考 虑 把 
整个 企业 共享 的 细节 数据 放 在 主机 或 其 他 集中 式 服务 器 上 。 别 把 表格 和 它们 的 索引 放 在 同 
一 设备 上 。 一 般 可 以 将 索引 存放 在 高 速 存储 设备 上 ,而 表格 则 存放 在 一 般 存储 设备 上 ,以 加 
快 数据 的 查询 速度 。 

物理 模型 设计 与 实施 过 程 要 保持 数据 仓库 的 设计 实施 和 管理 稳定 ,不 产生 混乱 ,可 能 
需要 对 物理 数据 模型 中 的 实体 、 表 、 列 等 进行 规范 化 处 理 , 使 整个 数据 仓库 的 物理 数据 模型 
能 够 保持 一 致 。 规 范 化 内 容 主要 有 : 完整 清晰 的 数据 定义 、 合 适 的 数据 格式 等 ,数据 仓库 中 
的 每 个 组 件 或 部 件 都 确定 相应 的 设计 标准 。 

物理 模型 设计 评审 的 目标 要 确定 : 物理 模型 在 满足 数据 仓库 使 用 的 灵活 性 、 性 能 数据 
完整 性 ,系统 可 用 性 ,数据 的 当前 性 和 用 户 的 满意 度 等 。 具 体 的 评审 项 目 有 : 表 空间 、 分 区 、 
表格 .数据 压缩 \ 控 制 表 和 引用 表 、 索 引 、` 数 据 量 ` 数 据 分 布线 路 通信 量 ,数据 仓库 的 更 新 、 概 
况 数据 ,预期 变动 和 数据 的 文档 化 。 接 口 应 该 具有 这 样 一 些 功能 : 从 面向 应 用 和 操作 环境 
生成 完整 的 数据 ;数据 基于 时 间 的 转换 ;数据 的 聚集 ;对 现 有 数据 系统 的 有 效 扫描 ,以 便 今 后 
数据 仓库 的 数据 追加 。 
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2.5 数据 仓库 的 元 数据 模型 


元 数据 (metadata) 是 “关于 数据 的 数据 ”, 如 在 传统 数据 库 中 的 数据 字典 就 是 一 种 元 数 
据 。 元 数据 与 指向 数据 仓库 内 容 的 索引 相似 ,处 于 数据 仓库 的 上 层 , 并 且 记 录 数 据 仓库 中 对 
象 的 位 置 , 元 数据 存储 对 程序 员 所 知 的 数据 结构 、DSS 分 析 员 所 知 的 数据 结构 ,数据 仓库 的 
源 数据 数据 模 型 .数据 模型 和 数据 仓库 的 关系 、 抽 取 数 据 的 历史 记录 等 内 容 进行 记录 。 

数据 仓库 中 元 数据 是 关于 数据 .操纵 数据 的 进程 和 应 用 程序 的 结构 和 意义 的 描述 信息 ， 
其 主要 目标 是 提供 数据 资源 的 全 面 指南 。 其 范围 可 以 是 某 个 特别 的 数据 库 管理 系统 中 从 现 
实 世 界 的 概念 上 的 一 般 概括 ,到 详细 的 物理 说 明 。 元 数据 在 数据 仓库 的 设计 .运行 中 有 着 重 
要 的 作用 , 它 表 述 了 数据 仓库 中 的 各 对 象 ,遍及 数据 仓库 的 所 有 方面 ,是 数据 仓库 中 所 有 管 
理 、 操 作 数据 的 数据 ,是 整个 数据 仓库 的 核心 。 

典型 的 元 数据 包括 : 

。 数据 仓库 的 表 结 构 ; 

。 数据 仓库 的 表 属 性 ; 

。 数据 仓库 的 源 数 据 ( 记 录 系 统 ); 

从 记录 系统 到 数据 仓库 的 映射 
。 数据 模型 的 说 明 ， 

。 抽取 日 志 ; 

。 访问 数据 的 公用 例 行 程序 ; 

。 数据 的 定义 /描述 ; 
数据 单元 之 间 的 关系 。 

同时 ,元 数据 是 一 个 相对 的 概念 ,例如 ,如 果 数 据 A 对 数据 B 进行 描述 ,那么 数据 A 相 
对 数据 也 来 说 就 是 元 数据 ,同时 如 果 数 据 O 对 数据 A 进行 描述 ,那么 数据 O 相对 数据 A 来 
说 就 是 元 数据 。 因 此 ,元 数据 结构 本 身 是 分 层 的 ,上层 的 元 数据 对 相 邻 下 层 的 数据 进行 抽象 
描述 ,如 图 2. 11 所 示 。 


立方 体 ( 维 ) 一 一 一 一 元 数据 的 元 数据 (元 模型 ) 
| 

产品 销售 额 (商店 ， 顾 客 ) 一 一 一 一 元 数据 
| 

300( 商 店 A， 顾 客 A) 一 一 一 一 数据 


图 2.11 元 数据 的 分 层 体系 结构 


2.5.1 元 数据 的 类 型 


根据 元 数据 的 状态 ,可 将 元 数据 分 为 静态 元 数据 和 动态 元 数据 两 类 。 
(1) 静态 元 数据 : 业务 规则 、 域 类别、 索引 、 来 源 、 生 成 时 间 、 关 系 、 数 据 类 型 .格式 、 描 
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述 、 名 称 等 。 

(2) 动态 元 数据 : 处 理 . 引 用 处 、 存 储 大 小 .存储 位 置 .状态 .统计 信息 、 数 据 质量 .更 新 
时 间 、 入 库 时 间 等 。 

根据 使 用 情况 ,主要 有 技术 元 数据 和 业务 元 数据 两 类 元 数据 : 

(1) 技术 元 数据 (technical metadata) : 为 了 从 操作 型 环境 向 数据 仓库 转化 而 建立 的 元 
数据 ,包含 了 所 有 源 数据 项 名 、 属 性 及 其 在 数据 仓库 中 的 转化 ;这 种 元 数据 称 为 技术 元 数据 。 

(2) 业务 元 数据 (business metadata) : 用 来 和 终端 用 户 的 多 维 商 业 模 型 /前 端 工 具 之 间 
建立 映射 ,此 种 元 数据 称 之 为 业务 元 数据 ,常用 来 开发 更 先进 的 决策 支持 工具 。 

技术 元 数据 是 描述 关于 数据 仓库 技术 细节 的 数据 ,这 些 元 数据 应 用 于 开发 .管理 和 维护 
数据 仓库 , 它 主要 包含 以 下 信息 。 

(1) 数据 仓库 结构 的 描述 ,包括 仓库 模式 、 视 图 、 维 、 层 次 结构 和 导出 数据 的 定义 ,以 及 
数据 集 市 的 位 置 和 内 容 。 

(2) 业务 系统 .数据 仓库 和 数据 集 市 的 体系 结构 和 模式 。 

(3) 汇总 用 的 算法 ,包括 度量 和 维 定义 算法 ,数据 粒度 .主题 领域 .聚合 .汇总 和 预定 义 
的 查询 与 报告 。 

(4) 由 操作 环境 到 数据 仓库 环境 的 映射 ,包括 源 数据 和 它们 的 内 容 、 数 据 分 割 、 数 据 提 
取 、 清 理 、 转 换 规则 和 数据 刷新 规则 及 安全 (用 户 授权 和 存 取 控 制 ) 。 

另外 ,技术 元 数据 还 包括 : 用 户 报表 和 查询 访问 模式 、 频 率 以 及 执行 时 间 ,审计 控制 和 
负载 平衡 信息 ,数据 的 技术 结构 ,供给 决策 支持 系统 的 记录 系统 , 源 系统 字段 标识 ,从 操作 型 
记录 系统 到 决策 支持 系统 的 映射 和 转换 ,编码 /引用 表 转 换 , 物 理 和 逻辑 数据 模型 ;决策 支持 
系统 表 名 、 键 和 索引 , 域 值 ,操作 型 系统 的 表 结 构 和 属性 ,数据 仓库 的 表 结 构 和 属性 ,数据 模 
型 和 数据 仓库 系统 之 间 的 关系 ,抽取 历史 ,数据 仓库 表 访 问 模式 ,数据 仓库 系统 归档 ,工作 相 
关 性 信息 ,程序 名 和 描述 ,版 本 维护 ,安全 性 和 清洗 规则 等 信息 。 

当 开 发 人 员 和 技术 用 户 对 数据 仓库 和 操作 型 系统 进行 维护 和 扩展 时 ,技术 元 数据 为 他 
们 提供 所 需要 的 信息 。 例 如 ,如 果 Adventure Works Cycles 公司 需要 重新 划分 其 地 理 销售 
区 域 ,IT 经 理 就 可 以 利用 技术 元 数据 列 出 所 有 含有 地 理 销售 数据 的 程序 、 表 和 系统 ,这 些 信 
息 使 经 理 能 够 方便 而 迅速 地 估计 出 开发 团队 进行 修改 所 需要 的 开发 资源 和 时 间 , 还 可 以 帮 
助 确定 可 能 受到 影响 的 所 有 其 他 系统 。 另 外 ,IT 开发 人 员 在 实现 新 的 地 理 销 售 区 域 时 ,可 
以 使 用 其 他 技术 元 数据 来 帮助 定位 到 具体 的 代码 行 。 技 术 元 数据 对 于 维护 和 改进 系统 是 至 
关 重 要 的 。 

业务 元 数据 从 业务 角度 描述 了 数据 仓库 中 的 数据 , 它 提供 了 介 于 使 用 者 和 实际 系统 之 
间 的 语义 层 , 使 得 不 介 计 算 机 技术 的 业务 人 员 也 能 够 “ 读 懂 ?数据 仓库 中 的 数据 。 业 务 元 数 
据 主 要 包括 以 下 信息 : 

。 使 用 者 的 业务 术语 所 表达 的 数据 模型 .对象 名 和 属性 名 ; 

。 访问 数据 的 原则 和 数据 的 来 源 ; 

。 系统 所 提供 的 分 析 方 法 及 公式 和 报表 的 信息 。 

在 信息 打包 过 程 中 ,需要 用 包 图 表示 维度 和 类 别 还 有 它们 之 间 的 传递 和 映射 关系 ,实际 
上 这 个 操作 就 是 在 原 业务 系统 的 基础 上 创建 了 元 数据 。 其 中 的 维度 、 类 别 还 有 层次 关系 是 
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属于 典型 的 技术 型 元 数据 ,而 业务 系统 中 与 之 对 应 的 术语 则 属于 业务 元 数据 。 比 如 前 面 的 
例子 中 提炼 出 的 日 期 区域. 产品 .客户 年 龄 和 客户 状况 等 维度 ,实际 销售 .计划 销售 ,预测 销 
售 .计划 偏差 和 预测 偏差 等 指标 皆 属 于 元 数据 。 这 些 数 据 在 以 后 的 分 析 中 将 起 到 极为 重要 
的 作用 。 

因此 ,业务 元 数据 是 为 业务 用 户 提供 支持 的 , 它 为 决策 支持 分 析 人 员 提 供 了 访问 数据 仓 
库 和 数据 集 市 中 的 信息 的 线路 图 。 业 务 用 户 通常 是 行政 人 员 或 业务 分 析 员 ,他们 相对 缺乏 
技术 背景 知识 ,业务 元 数据 将 使 业务 用 户 更 容易 理解 数据 仓库 中 的 信息 。 业 务 元 数据 示例 
如 表 2-11 所 示 。 


表 2-11 业务 元 数据 示例 


业务 元 数据 
业务 分 析 员 了 解 的 数据 结构 (产品 体系 对 于 业务 意义 不 同 ) 
数据 仓库 中 信息 的 常见 访问 例 程 
主题 领域 (例如 产品 销售 客户 等 ) 
表 名 的 业务 定义 (如 表 名 CUST 的 业务 定义 是 : 在 最 近 两 年 中 下 过 订单 的 活跃 客户 ) 
属性 名 和 业务 术语 定义 
数据 质量 统计 信息 
数据 仓库 系统 字段 映射 .转换 和 概要 
下 钻 ` 上 钻 、 钻 过 和 钻 透 的 规则 
域 值 
数据 责任 人 
数据 位 置 
数据 仓库 系统 刷新 日 期 


2.5.2 元 数据 的 作用 


从 元 数据 的 类 型 和 作用 来 看 ,元 数据 实际 上 是 要 解决 何人 在 何 时 、 何 地 为 了 什么 原因 及 
怎样 使 用 数据 仓库 的 问题 。 再 具体 化 一 点 ,元 数据 在 数据 仓库 管理 员 的 眼中 是 数据 仓库 中 
的 包含 了 所 有 内 容 和 过 程 的 完整 知识 库 和 文档 ,而 在 最 终 用 户 ( 即 数据 分 析 人 员 ) 眼 中 ,元 数 
据 则 是 数据 仓库 的 信息 地 图 。 因 此 ,元 数据 存在 于 数据 仓库 建设 的 整个 过 程 中 的 原始 数据 
源 .数据 建 模 、 数 据 转 换 及 目标 数据 源 各 个 环节 中 的 各 类 信息 ,如 表格 , 栏 位 、 属 性 的 定义 , 数 
据 是 谁 建立 的 ,数据 的 结构 如 何 , 数 据 来 源 为 何 , 透 过 哪 一 个 数据 转移 程序 而 来 ,文件 数据 内 
容 为 何等 。 

元 数据 在 数据 仓库 中 可 进行 数据 质量 校 验 与 保证 ,还 可 以 在 数据 整合 的 过 程 中 ,在 原始 
数据 源 和 目的 数据 仓库 全 过 程 中 ,全 面 审查 、 监 控 和 报告 数据 问题 ,跟踪 未 完成 .不 准确 、 过 
期 和 不 正确 格式 的 数据 。 数 据 分 析 员 为 了 能 有 效 地 使 用 数据 仓库 环境 ,往往 需要 元 数据 的 
帮助 。 尤 其 是 在 数据 分 析 员 进行 信息 分 析 处 理 时 ,他 们 首先 需要 去 查看 元 数据 。 元 数据 还 
涉及 到 数据 从 操作 型 环境 到 数据 仓库 环境 中 的 映射 。 当 数据 从 操作 型 环境 进入 数据 仓库 环 
境 时 ,数据 要 经 历 一 系列 重大 的 转变 ,包含 了 数据 的 转化 .过 滤 .汇总 和 结构 改变 等 过 程 。 数 
据 仓库 的 元 数据 要 能 够 及 时 跟踪 这 些 转变 , 当 数据 分 析 员 需 要 就 数据 的 变化 从 数据 仓库 环 
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境 追溯 到 操作 型 环境 中 时 ,就 要 利用 元 数据 来 追踪 这 种 转变 。 另 外 ,由 于 数据 仓库 中 的 数据 
会 存在 很 长 一 段 时 间 ,其 间 数 据 仓库 往往 可 能 会 改变 数据 的 结构 。 随 着 时 间 的 流逝 来 跟踪 
数据 结构 的 变化 ,是 元 数据 另 一 个 常见 的 使 用 功能 。 

在 数据 仓库 中 ,元 数据 主要 作用 于 以 下 几 个 方面 : 

* 数据 源 抽 取 ; 

。 数据 源 转换 ; 

。 数据 源 净化 ; 

。 数据 源 概括 与 聚集 ; 

。 数据 刷新 ; 

。 数据 仓库 中 的 数据 库 设计 ; 

。 查询 与 报表 设计 。 

元 数据 描述 了 数据 的 结构 .内容 、 链 和 索引 等 项 内 容 。 在 传统 的 数据 库 中 ,元 数据 是 对 
数据 库 中 各 个 对 象 的 描述 。 在 关系 数据 库 中 ,这 种 描述 就 是 对 数据 库 、 表 、 列 、 观 点 和 其 他 对 
象 的 定义 ;但 在 数据 仓库 中 ,元 数据 定义 了 数据 仓库 中 的 许多 对 象 一 一 表 、 列 、 查 询 、 商 业 规 
则 及 数据 仓库 内 部 的 数据 转移 。 元 数据 是 数据 仓库 的 重要 构件 ,是 数据 仓库 的 指示 图 。 元 
数据 在 数据 源 抽取 、 数 据 仓库 开发 .商务 分 析 ` 数 据 仓库 服务 和 数据 求 精 与 重 构 工 程 等 过 程 
都 有 重要 的 作用 。 

如 图 2. 12 所 示 ,显示 了 元 数据 在 整个 数据 仓库 开发 和 应 用 过 程 中 的 巨大 影响 。 因 此 ， 
设计 一 个 描述 能 力 强 并 且 内 容 完善 的 元 数据 模型 ,对 数据 仓库 进行 有 效 地 开发 和 管理 具有 


/业务 数据 与 
“外 部 数据 


户 的 显示 、 
分 析 与 发 现 


图 2. 12 元 数据 在 整个 数据 仓库 开发 和 应 用 过 程 中 的 作用 


2.5.3 元 数据 的 收集 与 维护 


在 组 织 内 部 存在 很 多 不 同 的 元 数据 源 。 元 数据 可 能 来 源 于 源 系统 、 抽 取 的 数据 \ 转 换 或 
清理 的 数据 ,装载 的 数据 ,存储 的 数据 及 信息 传递 的 过 程 。 

(1) 从 源 系统 收集 元 数据 : COBOL 写字 板 及 控制 块 规范 .系统 文档 的 数据 元 素 定义 、 
操作 型 系统 数据 模型 程序 规范 ,物理 文件 布局 及 字段 定义 、 外 部 数据 来 源 的 文件 布局 和 字 
段 定义 .其 他 来 源 ( 如 电子 表格 ) 等 。 
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(2) 从 抽取 的 数据 中 收集 元 数据 : 源 平台 的 数据 和 连接 .所 选择 的 数据 源 的 布局 和 定 
义 .每 个 平台 上 初始 抽取 文件 的 合并 准则 ,用 于 抽取 的 字段 定义 、 标 准 化 字段 类 型 与 长 度 的 
规则 ,数据 抽取 计划 . 增 量 修改 的 抽取 方法 .数据 抽取 任务 流 等 。 

(3) 从 转换 或 清理 的 数据 中 收集 元 数据 : 抽取 文件 到 数据 准备 文件 的 映射 规范 .单独 
文件 的 转换 规则 、 字 有 段 默认 有效 性 检查 的 商业 规则 、 分 类 及 重 排序 安排 .从 数据 抽取 到 数据 
准备 的 审查 跟踪 等 。 

(4) 从 数据 装载 中 收集 元 数据 : 从 数据 准备 文件 到 装载 映像 的 映射 规则 ,为 每 个 文件 
分 配 键 时 的 分 配 规 则 .完全 刷新 的 计划 .数据 准备 到 装载 映像 的 审查 跟踪 、 增 量 装载 的 计划 、 
数据 装载 任务 流 等 。 

(5) 从 存储 的 数据 中 收集 元 数据 : 集中 式 数 据 仓库 和 独立 数据 集 市 数据 模型 .多 个 表 
组 成 的 主题 区 域 、, 物理 文件 .统一 化 数据 集 市 数据 模型 , 表 和 列 定义 ,有效 性 检查 的 商业 规 
则 等 。 

(6) 从 信息 传递 过 程 中 收集 元 数据 : 预定 义 查询 和 报表 的 列表 ,查询 和 报表 工具 列表 、 
为 OLAP 检索 数据 的 计划 .特殊 OLAP 数据 库 数据 模型 等 。 

外 部 数据 从 外 部 数据 源 进入 企业 ,可 能 以 电子 形式 或 非 电 子 形式 进入 数据 仓库 系统 或 
者 操作 型 系统 。 企 业 通 常 无 法 控制 外 部 数据 源 ,但 需要 获取 外 部 数据 源 的 元 数据 。 外 部 数 
据 源 的 元 数据 包括 : 文档 ID、 实体 进入 数据 仓库 或 操作 型 系统 的 日 期 .外 部 数据 源 、 外 部 数 
据 的 分 类 、 索 引 词 .清洗 日 期 .物理 位 置 引 用 、 外 部 数据 的 长 度 等 。 表 2-12 按照 位 置 列 出 了 
最 常见 的 元 数据 来 源 。 


表 2-12 ” Adventure Works Cycles 公司 最 常见 的 元 数据 来 源 


常见 的 元 数据 位 置 元 数据 类 型 

ETL 工具 /过 程 le 
数据 建 模 工具 逻辑 数据 模型 和 物理 数据 模型 技术 实体 定义 ,技术 属性 定义 、 域 值 

报表 工具 用 户 访问 模式 ,报表 执行 时 间 、 业 务实 体 定义 、 业 务 属性 定义 、 业 务 标准 定义 
数据 质量 工具 数据 质量 统计 、 审 核 控 制 

生产 商 应 用 程序 数据 字典 .业务 策略 

文档 业务 实体 定义 .业务 属性 定义 ,业务 标准 定义 数据 责任 

雇员 业务 策略 、 业 务实 体 定义 、 业 务 属性 定义 .数据 责任 ,数据 谱系 


对 收集 到 的 元 数据 要 进行 集成 ,根据 元 数据 源 集成 方法 ,可 将 组 织 内 部 元 数据 源 分 为 
三 类 : 

(1) 通过 验证 的 来 源 。 通 过 验证 的 来 源 是 工具 可 以 直接 读 取 、 正 确 解释 并 能 加 载 到 正 
确 的 元 数据 属性 中 的 那些 数据 源 。 这 些 数 据 源 很 容易 集成 ,而 且 不 需要 对 基本 的 元 模型 进 
行 扩展 。 通 过 验证 的 元 数据 源 的 例子 有 CASE 工具 中 的 技术 元 技术 和 抽取 /转换 引擎 中 的 
转换 规则 ,元 数据 仓储 工具 可 以 接受 若干 生产 商 的 元 数据 源 。 

(2) 普通 来 源 。 普 通 元 数据 源 是 那些 工具 可 读 取 的 ,以 普通 格式 (例如 制 表 符 、 空 格 、 豆 
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号 分 隔 的 ) 存 在 的 元 数据 来 源 。 对 于 普通 元 数据 源 ,往往 需要 通过 编程 把 源 中 的 元 素 映 射 到 
元 模型 恰当 的 属性 上 ,这 时 ,工具 界面 能 够 方便 地 修改 对 源 的 映射 是 很 重要 的 。 另 外 ,这 些 
元 数据 源 经 常 需要 对 元 模型 进行 扩展 ,扩展 元 模型 的 流程 可 以 是 在 现 有 的 表 中 加 一 个 属性 ， 
也 可 以 是 创建 新 表 、 或 者 给 其 他 的 表 添 加 外 键 等 。 普 通 来 源 通常 包括 数据 库 和 Excel 报表 
中 的 技术 和 业务 元 数据 ,这 些 数据 很 容易 被 抽取 成 行业 标准 格式 。 

(3) 不 被 支持 的 来 源 。 不 被 支持 的 来 源 指 的 是 除了 上 两 种 来 源 经 外 的 其 他 元 数据 源 ， 
需要 对 这 种 元 数据 源 进行 周密 的 设计 与 分 析 。 这 些 源 可 以 通过 一 个 复杂 的 附加 程序 转换 为 
普通 来 源 。 不 被 支持 的 来 源 是 不 规则 的 业务 元 数据 源 以 及 生产 商 应 用 中 保存 的 元 数据 源 。 

元 数据 维护 时 所 面临 的 最 大 挑战 是 它 存 在 于 多 个 不 同 的 来 源 , 而 每 个 来 源 都 有 自己 的 
元 数据 仓储 。 元 数据 仓储 (meta data repository) 表 示 含 有 元 数据 的 物理 数据 库 表 。 本 节 通 
过 介绍 Repository 的 功能 与 架构 ,让 读者 了 解 元 数据 的 维护 方法 。 

Repository 特性 包括 : 对 于 原始 数据 源 数据 的 评测 直接 增强 转换 过 程 的 处 理 有 效 性 ， 
规范 数据 含义 ,统一 编码 规则 ,数据 有 效 性 校 验 ,数据 结构 优化 ,历史 数据 的 归并 整理 ,影响 
分 析 (impact analysis) ,分 析 数 据 质 量 的 影响 和 潜在 风险 ,帮助 用 户 实现 业务 的 分 类 ,数据 抽 
取 、 清 洗 , 转 换 规 则 的 记录 ,与 建 模 工 具 的 全 面 集成 ,提供 友好 使 用 界面 。 

Repository 架构 如 图 2. 13 所 示 。 


Repository Population Center Data Shopper Repository 
客户 端 元 数据 采集 中 心 前 端 显示 界面 客户 端 组 件 
[sr Hp 
Repository 网 络 信息 应 用 服务 器 
引擎 TOPAF 服务 器 端 组 件 
ODBC 
Repository 数 据 存储 一 数据 库 服务 
如 SQL Server Oracle ~ Sybase | 器 端 组 件 


图 2. 13 Repository 架构 


其 中 ,Repository 是 基于 元 数据 结构 的 一 种 浏览 ,Population Center 是 一 个 元 数据 采集 
模块 ,Data Shopper 是 一 个 用 ASP 开发 的 前 端 显示 界面 。 

Repository 的 功能 包括 : 

(1) 元 数据 库 所 支持 的 数据 服务 器 种 类 : 如 SQL Server 7.0、Sybase、Oracle 8i。 

(2) 元 数据 扫描 : 扫描 的 对 象 :数据 库 .CASE TOOL、ERP、C\C++ 。 扫 描 方 式 有 两 种 : 
一 种 是 PCD: 扫描 完 存 放 于 数据 文件 *. pcd 中 ,再 用 LOADER 加 载 数据 ; 另 一 种 是 
Repository: 扫描 的 元 数据 直接 存放 于 元 数据 库 中 。 

Repository 配置 使 用 流程 : 

@ 建立 ODBC 数据 源 : 如 Oracle 8i 选择 Microsoft ODBC for Oracle。 
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@ 运行 Configuration Facility: Repository Create。 
@ 配置 用 户 ,进行 安全 性 管理 Tool: Security。 

@ 注册 引擎 Engine Register。 

@ 给 DataShopper 建立 虚拟 路 径 ( 可 选 ) 。 

@ 启动 Client 之 前 , 先 启动 Engine。 


2.5.4 元 数据 的 使 用 


数据 仓库 对 元 数据 的 使 用 主要 体现 在 两 个 方面 : 第 一 ,因为 元 数据 对 数据 仓库 中 数据 
的 内 容 和 出 处 进行 了 详细 说 明 , 用 户 可 以 根据 主题 利用 元 数据 来 查看 数据 仓库 的 内 容 ; 第 
二 ,因为 元 数据 提供 了 可 重复 利用 的 查询 语言 信息 ,如 果 这 些 查 询 中 的 一 个 或 几 个 能 满足 用 
户 的 需求 ,或 与 用 户 需 求 相近 ,用 户 就 可 以 直接 使 用 元 数据 中 的 查询 ,而 不 用 重新 编写 程序 。 

元 数据 用 户 可 以 分 为 三 类 : 业务 用 户 .技术 用 户 和 高 级 用 户 ,这 三 类 用 户 都 需要 通过 元 
数据 来 确定 和 有 效 使 用 企业 系统 中 的 信息 。 

(1) 业务 用 户 。 大 部 分 业务 用 户 都 不 太公 技术 ,他们 通常 具备 业务 背景 ,并 从 数据 仓库 
系统 预定 义 的 查询 和 报表 中 获取 信息 。 这 些 用 户 通常 需要 元 数据 来 确定 和 定位 数据 仓库 系 
统 中 的 信息 ,例如 业务 名 、 数 据 表 和 属性 的 描述 、 现 有 报表 的 描述 。 此 外 ,许多 业务 用 户 还 关 
心 查询 和 报表 的 预计 执行 时 间 。 常 见 的 用 户 包 括 : 营销 (市 场 推广 ) 分 析 员 ,销售 分 析 员 、 财 
务 决策 者 等 。 

(2) 技术 用 户 。 技 术 用 户 可 以 是 程序 员 数据 采集 开发 人 员 ,数据 访问 开发 人 员 .数据 
建 模 员 、 高 级 分 析 员 或 元 数据 仓储 团队 成 员 。 技 术 用 户 通过 元 数据 构造 、 维 护 并 管理 数据 仓 
库 系统 。 他 们 需要 理解 程序 如 何 将 数据 抽取 、 转 换 和 装载 到 数据 仓库 和 数据 集 市 中 ,需要 判 
断 哪些 程序 .文件 和 报表 会 受到 数据 仓库 系统 变化 的 影响 。 一 般 情 况 下 ,技术 元 数据 可 使 技 
术 用 户 更 有 效 .更 精确 地 为 数据 仓库 系统 的 后 续 开发 制定 计划 。 

(3) 高 级 用 户 。 高 级 用 户 是 进入 业务 领域 的 IT 技术 人 员 ,这 些 用 户 以 正常 方式 访问 数 
据 仓库 系统 ,理解 业务 数据 ,并 对 数据 仓库 系统 的 报表 十 分 熟悉 ,他 们 懂得 关系 型 数据 库 的 
概念 与 结构 化 查询 语言 (SQL) ,并 在 日 常 工作 中 使 用 复杂 的 查询 工具 。 这 些 用 户 关心 数据 
仓库 系统 内 容 发 生 的 变化 以 及 数据 如 何 被 抽取 转换 和 加 载 到 数据 仓库 系统 。 


2.5.5 元 数据 管理 模型 


CWM(Common Warehouse Metamodel, 公 共 仓 库 元 模型 ) 是 一 个 被 OMG 采纳 为 在 数 
据 仓库 和 业务 分 析 环 境 中 进行 元 数据 交换 的 标准 。CWM 提供 了 一 种 经 过 长 期 研究 的 通用 
语言 来 描述 元 数据 ,是 一 个 基于 一 般 的 但 语义 丰富 的 公共 数据 仓库 和 业务 分 析 领 域 的 元 数 
据 管理 模型 , 它 还 提供 了 基于 XML 的 元 数据 交换 工具 。 

CWM 元 数据 管理 模型 基于 元 对 象 框 架 (Meta Object Framework,MOF)。MOF 是 一 
个 用 来 指定 构造、 管理 .交换 和 集成 软件 系统 中 的 元 数据 的 模型 驱动 的 、 分 布 式 对 象 框架 。 
此 框架 的 作用 是 支持 各 种 类 型 的 元 数据 ,并 可 以 在 需要 时 添加 新 类 别 的 元 数据 。 为 了 达到 
这 个 目的 ,MOF 采用 四 层 元 数据 体系 结构 ,如 表 2-13 所 示 。 


家 证 史 剖 


表 2-13 元 数据 体系 结构 


元 层次 MOF 术语 示 例 
M3 元 -元 模型 MOF 模型 
wi 元 模型 UML 元 模型 
元 -元 数据 CWHM 元 模型 
MI1 模型 UML 模型 
对 象 被 建 模 的 系统 
数据 数据 仓库 /业务 智能 数据 


这 种 体系 结构 将 元 数据 (M1) 作 为 数据 (M0) ,并 为 不 同类 型 的 元 数据 进行 形式 化 建 模 。 
这 些 形式 化 模型 (M2) 使 用 一 个 元 -元 模型 (M3) 所 提供 的 元 建 模 结构 来 表示 ,这 就 是 MOF 
模型 。 

CWM 处 在 MOF 结构 的 第 2 层 ,CWM 根据 数据 仓库 和 业务 智能 领域 的 需要 来 定制 
OMG 元 模型 体系 结构 , 它 对 数据 仓库 业务 领域 的 元 数据 进行 建 模 。 

CWM 本 身 被 组 织 为 五 个 功能 层 ,各 层 中 包括 有 多 个 包 (package)。 

(1) 对 象 模型 层 : 包含 核心 包 , 行 为 包 、 关 系 包 、 实 例 包 。 

(2) 基础 层 : 业务 信息 包 、 数 据 类 型 包 、 表 达 式 包 、 关 键 字 与 索引 包 、 软 件 部 署 包 、 类 型 
映射 包 等 。 

(3) 资源 层 : 对 象 包 、 关 系 型 包 、 记 录 包 、 多 维 型 包 、XML 包 。 

(4) 分 析 层 : 转换 包 、OLAP 包 、 数 据 挖掘 包 、 信 息 可 视 化 包 、 业 务 命名 规则 包 等 。 

(5) 管理 层 : 数据 仓库 处 理 包 、 数 据 仓库 操作 包 等 。 

其 中 ,核心 包 (Core) 含 有 所 有 其 他 CWM 包 使 用 的 基本 类 和 关联 , 它 不 依赖 于 任何 
其 他 的 包 , 核 心包 包括 基本 的 UML 基础 结构 ,这 些 基础 结构 可 以 用 来 定义 关系 数据 库 
和 记录 文件 等 非 面向 对 象 的 数据 存储 ,核心 包 中 还 包括 被 其 他 包 广 泛 使 用 的 支持 类 和 数据 
类 型 。 

基于 CWM 的 数据 仓库 工具 之 间 可 以 通过 XML 进行 元 数据 的 交换 。 例 如 ,图 2. 14 表 
示 Adventure Works Cycles 公司 的 部 分 元 数据 体系 结构 。 


类 、 关 联 一 一 一 一 元 -元 模型 (第 3 层 ) MOF 
| 

立方 体 ( 维 ) 一 一 一 一 元 模型 (第 2 层 )CWM 
| 

销售 额 (商店 ， 顾 客 ) 一 一 一 一 元 数据 (第 1 层 ) 
| 

300( 商 店 A， 顾 客 A) 一 一 一 一 数据 (第 0 层 ) 


图 2.14 Adventure Works Cycles 公司 的 部 分 元 数据 体系 结构 
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2.6 数据 仓库 的 粒度 和 聚集 模型 


2.6.1 数据 仓库 粒度 模型 


粒度 是 数据 仓库 的 重要 概念 。 所 谓 粒 度 是 指数 据 仓库 中 数据 单元 的 详细 程度 和 级 别 。 
粒度 可 以 分 为 两 种 形式 ,第 一 种 粒度 是 对 数据 仓库 中 的 数据 的 综合 程度 高 低 的 一 个 度量 , 它 
既 影响 数据 仓库 中 的 数据 量 的 多 少 ,也 影响 数据 仓库 所 能 回答 询问 的 种 类 。 还 有 一 种 粒度 
形式 , 即 样本 数据 库 , 它 根据 给 定 的 采样 率 从 细节 数据 库 中 抽取 出 一 个 子 集 ,这 样 样 本 数据 
库 中 的 粒度 就 不 是 根据 综合 程度 的 不 同 来 划分 的 ,而 是 有 采样 率 的 高 低 来 划分 ,采样 粒度 不 
同 的 样本 数据 库 可 以 具有 相同 的 数据 综合 程度 。 在 数据 仓库 环境 中 主要 是 分 析 型 处 理 , 粒 
度 的 划分 将 直接 影响 数据 仓库 中 的 数据 量 以 及 所 适合 的 查询 类 型 。 一 般 需要 将 数据 划分 为 
早期 细节 级 、 当 前 细节 级 、 轻 度 综合 级 、 高 度 综合 级 。 源 数据 经 过 综合 后 ,首先 进入 当前 细节 
级 ,并 根据 具体 需要 进行 进一步 的 综合 ,从 而 进入 轻 度 综合 级 乃至 高 度 综 合 级 ,老化 的 数据 
将 进入 早期 细节 级 由 此 可 见 , 数 据 仓 库 中 存在 着 不 同 的 综合 级 别 ,这 就 是 数据 仓库 的 数据 
“粒度 ”。 粒 度 越 大 ,表示 细节 程度 越 低 , 综 合 程度 越 高 。 不 同 粒度 级 别 的 数据 用 于 不 同类 型 
的 分 析 处 理 。 粒 度 的 划分 是 数据 仓库 设计 工作 的 一 项 重要 内 容 , 粒 度 划 分 是 否 适当 是 影响 
数据 仓库 性 能 的 一 个 重要 方面 。 

在 数据 仓库 中 ,多 维 粒 度 是 必 不 可 少 的 。 由 于 数据 仓库 的 主要 作用 是 DSS 分 析 , 因 而 
绝 大 多 数 查询 都 基于 一 定 程度 的 综合 数据 之 上 的 ,只 有 极 少数 查询 涉及 到 细节 。 在 数据 仓 
库 中 确定 粒度 的 级 别 时 ,需要 考虑 这 样 一些 因 素 : 要 接受 的 分 析 类 型 .可 接受 的 数据 最 低 粒 
度 和 能 存储 的 数据 量 。 粒 度 级 别 的 确定 是 需要 一 点 常识 和 直觉 的 。 因 为 在 很 低 的 细节 级 上 
建立 数据 仓库 没有 意义 ,在 很 高 的 粒度 级 上 建立 数据 仓库 ,会 使 很 多 数据 溢出 存储 器 。 确 定 
粒度 级 别 的 步骤 如 下 : 

@ 适当 划分 粒度 的 第 一 步 是 估算 数据 仓库 中 将 来 使 用 的 数据 行 数 和 所 需 的 直接 存 取 
存储 设备 数 (DASD) 。 

@ 在 计算 出 数据 仓库 所 需要 占用 的 存储 空间 以 后 ,需要 根据 所 需要 的 存储 空间 大 小 确 
定 是 否 划 分 粒度 ,如 果 需 要 划分 ,又 应 该 怎样 划分 。 可 对 每 个 表 估 算 其 一 年 所 需要 的 存储 空 
间 , 然 后 估算 其 最 长 的 保留 年 数 所 需要 的 存储 空间 。 每 个 表 的 存储 空间 ,应 该 是 每 一 个 表 的 
数据 存储 空间 和 索引 存储 空间 之 和 。 精 确 计算 表 的 每 年 实际 存储 空间 是 很 困难 的 ,只 能 给 
出 表 的 最 大 估算 空间 和 最 小 估算 空间 。 

@ 在 数据 仓库 中 确定 粒度 时 ,需要 考虑 这 样 一些 因 素 : 要 接受 的 分 析 类 型 .可 接受 的 
数据 最 低 粒度 、 能 够 存储 的 数据 量 。 

@ 计划 在 数据 仓库 中 进行 的 分 析 类 型 将 直接 影响 数据 仓库 的 粒度 划分 。 将 粒度 的 层 
次 定义 太 高 ,就 无 法 在 该 数据 仓库 中 进行 更 细致 的 分 析 操 作 。 

@ 数据 仓库 通常 在 同一 模式 中 使 用 多 重 粒 度 。 如 果 存 储 资 源 有 一 定 的 限制 ,就 只 能 采 
用 较 高 粒度 的 数据 粒度 划分 策略 。 

@ 定义 数据 仓库 粒度 的 另外 一 个 要 素 是 数据 仓库 可 以 使 用 多 种 存储 介质 的 空间 量 。 
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@ 选择 合适 的 粒度 是 数据 仓库 设计 过 程 中 所 要 解决 的 一 个 复杂 的 问题 ,因为 粒度 的 确 
定 实质 上 是 对 业务 决策 分 析 、 硬 件 、. 软 件 和 数据 仓库 使 用 方法 的 一 个 折 中 。 

@ 还 有 一 种 可 以 大 幅 降低 数据 仓库 容量 的 方法 ,就 是 只 采用 概括 数据 。 

数据 粒度 划分 策略 一 定 要 保证 数据 的 粒度 确实 能 够 满足 用 户 的 决策 分 析 需 要 ,这 是 数 
据 粒度 划分 策略 中 最 重要 的 一 个 准则 。 表 2-14 说 明了 常用 的 粒度 策略 的 选择 。 


表 2-14 粒度 策略 的 选择 
一 年 数据 五 年 数据 
数据 量 ( 行 数 ) 粒度 划分 策略 数据 量 ( 行 数 ) 粒度 划分 策略 
10 000 000 双重 粒度 并 仔细 设计 20 000 000 双重 粒度 并 仔细 设计 
1 000 000 双重 粒度 10 000 000 双重 粒度 
100 000 仔细 设计 1 000 000 仔细 设计 
10 000 不 考虑 100 000 不 考虑 


例如 ,Adventure Works Cycles 公司 对 销售 客户 通话 记录 按 不 同 粒度 级 别 开 成 的 数据 
信息 如 表 2-15 所 示 。 


表 2-15 Adventure Works Cycles 公司 对 销售 客户 通话 记录 的 不 同 粒度 级 别 
客户 通话 记录 A( 低 粒度 ) 


客户 通话 综合 信息 B( 高 粒度 ) 


客户 电话 
客户 名 
客户 城市 
日 期 
时 间 
通话 类 型 
开始 时 间 
结束 时 间 
话费 标准 


客户 电话 
客户 名 

客户 城市 

年 

月 

月 租 费 

市 通话 次 数 
市 通话 费用 
国内 通话 次 数 


2.6.2 数据 仓库 聚集 模型 与 数据 分 割 


聚集 数据 主要 是 为 了 使 用 户 获 得 更 好 的 查询 性 能 ,聚集 模型 设计 时 应 该 注意 将 聚集 数 
据 存储 在 其 事实 表 中 ,并 与 其 底层 数据 相 区 别 。 设 计 聚 集 模型 时 ,首先 需要 考虑 用 户 的 使 用 
要 求 , 其 次 要 考虑 数据 仓库 的 粒度 模型 和 数据 的 统计 分 布 情况 。 

数据 仓库 的 聚集 模型 的 设计 与 数据 仓库 的 粒度 模型 紧密 相关 。 建 立 聚 集 模型 时 还 需要 
考虑 作为 聚集 属性 的 数量 因素 ,聚集 事实 表 已 经 独立 存在 并 且 可 以 与 基本 事实 表 一 同 保存 ， 
通过 将 当前 加 载 数据 添加 到 系统 中 的 累积 “ 桶 ”中 ,将 数据 的 聚集 与 数据 仓库 的 加 载 过 程 组 
合 为 同一 处 理 过 程 ,在 将 数据 仓库 数据 加 载 以 后 ,再 进行 聚集 处 理 。 每 次 在 加 载 数据 仓库 数 
据 时 ,都 需要 对 各 种 聚集 进行 计算 和 增加 ,及 时 保持 聚集 与 基本 数据 的 同步 性 。 同 时 ,要 根 
据 使 用 情况 删除 不 经 常 使 用 的 聚集 ,需要 减少 层次 过 于 接近 的 聚集 生成 ,注意 将 聚集 独立 存 
储 在 自己 的 事实 表 中 。 
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分 割 是 数据 仓库 逻辑 设计 中 要 解决 的 男 一 个 重要 问题 , 它 的 目的 同样 在 于 提高 效率 ,能 
为 数据 仓库 的 物理 实施 提供 设计 依据 。 数 据 分 割 是 指 把 逻辑 上 整体 的 数据 分 割 成 较 小 的 
可 独立 管理 的 物理 单元 进行 存储 的 方法 。 数据 分 割 又 眼 数据 处 理 的 对 象 紧密 联系 ,不 同 主 
题 内 数据 分 割 标准 不 同 。 数 据 分 割 目的 在 于 数据 容易 重 构 方便 建立 更 加 高 效 的 索引 ,实施 
顺序 扫描 ,容易 对 于 数据 重组 与 恢复 ,容易 对 数据 进行 监控 。 

选择 适当 的 数据 分 割 的 标准 ,一 般 要 考虑 以 下 几 方 面 因 素 : 数 据 量 (而 非 记录 行 数 ) 、 数 
据 分 析 处 理 的 实际 情况 、 简 单 易 行 以 及 粒度 划分 策略 等 。 数 据 量 的 大 小 是 决定 是 否 进行 数 
据 分 割 和 如 何 分 割 的 主要 因素 ,如 果 数 据 量 较 小 ,可 以 不 进行 数据 分 割 或 只 用 单一 标准 进行 
数据 分 割 ,如果 数据 量 大 就 要 考虑 采用 多 重 标 准 的 组 合 较为 细致 地 分 割 数据 。 数 据 分 析 处 
理 的 要 求 是 选择 数据 分 割 标准 的 一 个 主要 依据 ,因为 数据 分 割 是 跟 数据 分 析 处 理 的 对 象 紧 
密 联系 的 。 还 要 考虑 到 所 选择 的 数据 分 割 标 准 应 是 自然 的 .易于 实施 的 。 同 时 也 要 考虑 数 
据 分 割 的 标准 与 粒度 划分 层次 是 适应 的 。 确 定数 据 分 割 策 略 包括 : 关系 模式 定义 ;记录 系 
统 定义 。 

有 许多 数据 分 割 的 标准 可 供 参 考 : 如 日 期 .地域 .业务 领域 等 ,也 可 以 是 其 组 合 。 一 般 
而 言 ,分割 标 准 总 应 包括 日 期 项 , 它 十 分 自然 而 且 分 割 均匀 。 使 用 数据 分 割 能 够 便于 数据 的 
重 构 .重组 和 恢复 ,以 提高 创建 索引 和 顺序 扫描 的 效率 ,还 可 有 效 支 持 数据 概括 。 


出 


2.7 小 结 


本 章 主要 介绍 数据 仓库 开发 模型 ,数据 仓库 模型 设计 包括 概念 模型 设计 、 逻 辑 模 型 设 
计 、 物 理 模 型 设计 、 元 数据 模型 设计 等 内 容 。 数 据 仓库 的 建 模 首先 要 将 现实 的 决策 分 析 环 境 
抽象 成 一 个 概念 数据 模型 。 然 后 ,将 此 概念 模型 馆 辑 化 ,建立 馆 辑 数据 模型 。 最 后 ,还 要 将 
逻辑 数据 模型 向 数据 仓库 的 物理 模型 转化 。 作 为 数据 仓库 灵魂 的 元 数据 模型 则 自始至终 伴 
随 着 数据 仓库 的 开发 .实施 与 使 用 。 数 据 仓 库 的 数据 抽取 模型 则 说 明 抽取 什么 数据 ,从 哪些 
业务 系统 抽取 ,对 抽取 的 数据 进行 哪些 转换 处 理 等 。 

同时 ,本 章 利用 SQL Server 2005 提供 的 实例 介绍 了 数据 仓库 概念 模型 .逻辑 模型 、 物 
理 模 型 .粒度 模型 .聚集 模型 .元 数据 模型 的 构建 过 程 。 


和 3 对 题 


1. 填空 题 


(1) 模型 是 对 进行 抽象 的 工具 。 在 信息 管理 中 需要 将 现实 世界 的 事物 及 其 有 
关 特 征 转换 为 “才能 对 信息 进行 处 理 与 管理 ,这 就 需要 依靠 数据 模型 作为 这 种 转换 
的 桥梁 。 
(2) 数据 仓库 模型 设计 包括 x 、 等 内 容 。 
(3) 是 存在 于 现实 之 中 的 各 种 客观 事物 。 _ ”是 现实 情况 在 人 们 头脑 中 
的 反应 。 是 人 们 为 将 存在 于 自己 头脑 中 的 概念 模型 转换 到 计算 机 中 的 实际 的 物理 
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存储 过 程 中 的 一 个 计算 机 逻辑 表示 模式 。 则 是 指 现实 世界 中 的 事物 在 计算 机 系统 
中 的 实际 存储 模式 。 

(4) 数据 仓库 设计 的 概念 模型 与 业务 数据 处 理 系统 的 三 级 数据 模型 仍然 具有 一 定 的 差 
距 。 表 现在 

(5) 数据 仓库 项 目 需求 的 收集 与 分 析 需 要 从 历史 数据 与 用 户 需求 两 个 方面 同时 着 手 ， 
采用 的 设计 理念 。 

(6) 所 谓 主 题 , 是 指 

(7) 多 维 数据 模型 较为 普遍 地 采用 两 种 模式 。 


(8) 设计 聚集 模型 时 ,首先 需要 考虑 ,其 次 要 考虑 

(9) 分 割 是 数据 仓库 逻辑 设计 中 要 解决 的 另 一 个 重要 问题 , 它 的 目的 在 于 ,能 
为 数据 仓库 的 物理 实施 提供 设计 依据 。 

(10) 元 数据 根据 使 用 情况 ,主要 有 元 数据 和 元 数据 两 类 元 数据 。 

2. 简 答 题 


(1) 简 述 概念 模型 设计 主要 完成 哪些 工作 。 

(2) 简 述 一 个 符合 第 三 范式 的 关系 必须 具有 的 三 个 条 件 。 

(3) 简 述 确定 粒度 级 别 的 步骤 。 

(4) 简 述 CWM 五 个 功能 层 。 

(5) 数据 仓库 物理 模型 进行 优化 时 可 以 考虑 的 解决 方案 有 哪些 ? 
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在 构建 商业 智能 系统 的 时 候 , 如 何 正 确 有 效 地 将 分 散在 各 个 不 同 数据 源 中 的 信息 整合 
到 系统 中 成 为 了 整个 系统 成 败 的 关键 ,直接 影响 到 系统 的 运行 效率 和 最 终结 果 。ETL 正 是 
解决 这 一 问题 的 有 力 工具 。ETL 是 指 把 数据 从 数据 源 装 入 数据 仓库 的 过 程 , 即 数据 的 抽取 
(extract) ,转换 (transform) 和 装载 (load) 过 程 。ETL 过 程 的 实质 就 是 符合 特定 规则 的 数据 
流动 过 程 , 从 不 同 异 构 数 据 源流 向 统一 的 目标 数据 。 其 间 ,数据 的 抽取 、 清 洗 、 转 换 和 装载 形 
成 串 行 或 并 行 的 过 程 ,每 个 过 程 都 必须 符合 特定 的 规则 。 根 据 国内 外 众多 实践 得 到 的 共识 ， 
ETL 规则 设计 和 实施 所 需 工 作 量 约 占 整 个 项 目的 60 站 一 80%。 由 于 ETL 过 程 的 重要 性 和 
复杂 性 ,如 何 设计 正确 、 高 效 的 ETL 过 程 已 经 成 为 了 商业 智能 系统 构建 过 程 中 无 法 回避 的 
重要 问题 。 

目前 在 ETL 具体 过 程 中 ,国内 外 进行 的 研究 主要 集中 在 以 下 几 个 方面 。 


1. 数据 抽取 阶段 


根据 数据 的 不 同性 质 , 主 要 研究 了 数据 捕获 的 时 机 ,对 于 立即 型 数据 抽取 可 通过 交易 日 
志 进 行 数据 捕获 ,从 数据 库 触 发 器 中 捕获 ,或 者 从 源 应 用 程序 中 捕获 ;对 于 延缓 的 数据 抽取 
则 主要 基于 日 期 和 时 间 标 记 的 捕获 和 通过 文件 的 比较 来 捕获 ,另外 还 有 文献 提出 全 量 / 增 量 
抽取 。 


2. 数据 转换 阶段 


主要 研究 记录 的 选择 .数据 类 型 转换 .日 期 时 间 格 式 转换 .有效 值 检查 .重新 格式 化 、 数 
据 委 失 问题 衍生 数据 .聚集 和 概括 .字段 的 分 离 与 合并 、 模 式 的 集成 与 转化 数据 异常 的 检 
测 .相似 重复 记录 的 识别 与 检测 等 。 


3. 数据 加 载 阶段 


主要 研究 全 量 / 增 量 加 载 . 数 据 的 合并 等 。 

此 外 ,对 ETL 开展 的 研究 工作 还 有 如 下 几 个 方面 : 从 全 局 着 眼 将 整个 ETL 工作 流 化 
的 研究 。 即 将 ETL 过 程 视 为 一 个 工作 流 ,将 每 个 ETL 工作 流 视 为 一 种 状态 并 通过 正确 的 
状态 转换 构造 状态 空间 。 并 且 针 对 ETL 过 程 流 的 执行 提出 代价 最 小 化 执行 算法 ;提出 用 于 
描述 ETL 过 程 的 模型 一 一 ETL 过 程 树 ,将 异 构 数据 转换 .数据 清理 与 查询 树 相 结合 ,并 给 
出 了 差 运 算 物化 视图 的 增 量 维护 的 方法 ;使 用 共同 立方 体 来 代表 在 目标 数据 仓库 中 的 立方 
体 ,使 ETL 过 程 的 设计 从 强 依靠 目标 数据 仓库 的 物理 模式 中 得 以 解脱 ,使 设计 人 员 将 视线 
从 数据 加 载 转移 到 数据 转换 上 来 ,并 且 基 于 在 源 属性 上 的 约束 功能 和 目标 属性 上 的 转换 操 
作 ,定义 了 一 个 ETL 图 来 捕获 在 源 属性 和 目标 属性 之 间 的 各 种 关系 基数 的 语义 ,从 而 为 
ETL 过 程 的 设计 提供 了 一 个 良好 的 基础 。 
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3.1 ETL 相关 概念 


从 ETL 的 定义 中 可 以 看 出 ETL 过 程 主 要 包括 三 个 部 分 : 数据 抽取 、 数 据 清 洗 与 转换 
以 及 数据 的 加 载 。 另 外 ,为 了 更 好 地 完成 ETL 过 程 的 设计 还 需要 对 将 要 操作 的 数据 有 一 定 
的 了 解 , 在 这 里 将 探查 数据 的 过 程 称 为 数据 理解 。 因 此 ,在 设计 ETL 的 时 候 需 要 从 以 下 几 
个 方面 进行 考虑 , 那 就 是 数据 理解 .数据 抽取 数据 清洗 、 数 据 转换 和 数据 加 载 。 


3.1.1 数据 理解 


在 设计 ETL 过 程 之 前 ,有 一 项 非常 重要 但 经 常 被 人 们 所 忽略 的 工作 , 那 就 是 数据 理解 。 
数据 理解 是 通过 大 量 的 调研 和 统计 工作 ,了 解数 据 的 存储 方式 ,数据 量 的 大 小 、 数 据 的 格式 、 
数据 的 业务 含义 等 信息 ,同时 还 需要 统计 各 种 数值 型 数据 的 最 大 值 . 最 小 值 和 平均 值 ,统计 
非 数 值 型 数据 中 各 种 不 同 的 取 值 以 及 各 种 不 同 取 值 的 个 数 。 有 了 以 上 信息 ,ETL 以 后 各 个 
步骤 的 设计 才能 做 到 有 的 放 矢 ,做 到 正确 、 高 效 。 


3.1.2 数据 抽取 


从 源 文件 和 源 数 据 库 中 获取 相关 数据 用 于 填充 数据 仓库 , 称 为 数据 抽取 。 并 非 所 有 包 
含 在 不 同 操作 型 业务 系统 中 的 数据 都 需要 抽取 ,通常 只 需要 其 中 的 一 个 子 集 。 抽 取 数 据 的 
一 个 子 集 是 基于 对 源 系统 和 目标 系统 的 扩展 分 析 , 一 般 会 由 终端 用 户 和 数据 仓库 专家 共同 
决定 。 

在 集成 端 进行 数据 的 初始 化 时 ,一 般 需 要 将 数据 源 端的 全 部 数据 装载 进来 ,这 时 需要 进 
行 全 量 抽取 。 全 量 抽 取 类 似 于 数据 迁移 或 数据 复制 , 它 将 数据 源 中 的 表 或 视图 的 数据 全 部 
从 数据 库 中 抽取 出 来 ,再 进行 后 续 的 转换 和 加 载 操作 。 全 量 抽取 可 以 使 用 数据 复制 .导入 或 
者 备份 的 方式 完成 ,实现 机 制 比较 简单 。 

全 量 抽 取 完 成 后 ,后 续 的 抽取 操作 只 需 抽 取 自 上 次 抽取 以 来 表 中 新 增 或 修改 的 数据 ,这 
就 是 增 量 抽取 。 

数据 的 抽取 必须 能 够 充分 满足 数据 中 心 系 统 分 析 及 决策 支持 的 需要 ,同时 必须 保证 不 
能 影响 业务 系统 的 性 能 ,所 以 进行 数据 抽取 时 必须 充分 考虑 这 些 因素 ,制定 相应 的 策略 , 包 
括 抽 取 方 式 、. 抽 取 时 机 、 抽 取 周 期 等 内 容 。 

抽取 可 以 使 用 同 源 系 统 相 联系 的 工具 所 写 的 程序 来 完成 , 称 为 输出 数据 的 工具 。 数 据 
通常 以 一 种 中 间 数 据 格式 抽取 ,通常 ,SQL 命令 SELECT…INTO 可 以 被 用 来 创建 表 。 一 
旦 选择 数据 源 , 写 出 抽取 程序 ,数据 就 可 以 被 移 进 集结 地 (staging area) ,清洗 过 程 就 从 这 里 
开始 。 

目前 ,数据 抽取 所 涉及 的 单个 技术 环节 都 已 相对 成 熟 , 但 整体 的 集成 度 还 很 不 够 。 市 场 
上 所 提供 的 大 多 是 数据 抽取 工具 ,这 些 工具 通过 用 户 选 定 源 数据 和 目标 数据 的 对 应 关系 ,会 
自动 生成 数据 抽取 的 代码 。 但 数据 抽取 工具 支持 的 数据 种 类 是 有 限 的 同时 数据 抽取 过 程 涉 
及 数据 的 转换 , 它 是 一 个 与 实际 应 用 密切 相关 的 部 分 ,其 复杂 性 使 得 不 可 嵌入 用 户 编 程 的 抽 
取 工 具 往 往 不 能 满足 要 求 。 因 此 ,实际 的 数据 仓库 实施 过 程 中 往往 不 一 定 使 用 抽取 工具 。 
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整个 抽取 过 程 能 否 因 工具 的 使 用 而 纳入 有 效 的 管理 、 调 度 和 维护 则 更 为 重要 。 从 市 场 发 展 
来 看 ,以 数据 抽取 、 异 构 互 连 产品 为 主 项 的 数据 仓库 厂商 一 般 都 很 有 可 能 被 其 他 拥有 数据 库 
产品 的 公司 吞并 。 在 数据 仓库 的 世界 里 ,它们 只 能 成 为 辅助 的 角色 。 


3.1.3 数据 清洗 


数据 仓库 的 外 部 数据 源 所 提供 的 数据 内 容 并 不 完美 ,存在 着 * 脏 数据 ”, 即 数据 有 空缺 、 
噪声 等 缺陷 ,而 且 在 数据 仓库 的 各 数据 源 之 间 , 其 内 容 也 存在 着 不 一 致 的 现象 。 为 了 控制 这 
些 * 脏 数据 ?对 数据 仓库 分 析 结 果 的 影响 程度 ,必须 采取 各 种 有 效 的 措施 ,对 其 进行 处 理 , 这 
一 处 理 过 程 称 为 数据 清洗 (data cleaning)。 对 于 任何 数据 仓库 而 言 , 数 据 清洗 过 程 都 是 必 
不 可 少 的 。 

不 同类 型 的 “ 脏 数据 ,清洗 处 理 的 方法 是 不 同 的 。 对 于 数据 空缺 ,可 以 采用 忽略 元 组 、 
用 一 个 全 局 常量 填充 空缺 值 . 用 属性 的 平均 值 填充 空缺 值 . 使 用 与 给 定 元 组 同类 的 所 有 样本 
的 平均 值 填充 空缺 值 . 使 用 最 可 能 的 值 填充 空缺 值 . 使 用 像 Bayesian 公式 或 判定 树 这 样 的 
基于 推断 的 方法 ;对 于 噪声 数据 ,可 以 用 分 箱 或 聚 类 等 方法 处 理 ; 而 对 于 不 一 致 的 数据 , 则 必 
须 依 据 数据 仓库 所 应 用 领域 的 特点 ,使 用 特定 的 方法 加 以 解决 。 


3.1.4 数据 转换 


数据 转换 指 接 收 来 自 不 同 运作 系统 的 输入 并 将 其 转换 成 目标 数据 仓库 中 需要 的 格式 的 
过 程 ,包括 数据 的 合并 汇总. 过滤 .转换 等 。 

数据 仓库 的 外 部 数据 源 , 其 文件 格式 .所 依赖 的 数据 库 平台 等 是 多 种 多 样 的 ,以 数据 库 
平台 为 例 , 可 以 是 Sybase Informix、Oracle、IBM 的 DB/2 或 是 Microsoft SQL Server 等 数 
据 库 系统 中 的 一 个 或 多 个 ,甚至 可 以 是 文本 文件 。 在 建立 数据 仓库 时 ,必须 对 这 些 数据 格式 
进行 转换 处 理 , 统 一 格式 。 目 前 一 些 大 的 数据 库 厂商 ,在 其 数据 仓库 构建 工具 中 ,都 提供 了 
针对 多 种 数据 库 系统 的 数据 转换 (data transformation) 引 擎 ,以 简化 数据 仓库 的 构建 工作 。 

在 设计 数据 转换 时 ,由 于 数据 源 之 间 往 往 存在 着 不 一 致 的 问题 ,因此 数据 转换 必须 做 到 
数据 名 称 及 格式 的 统一 ,同时 对 于 源 数据 库 中 可 能 不 存在 的 数据 需要 创建 新 的 数据 逻辑 视 
图 并 进行 相应 的 转换 。 概 括 起 来 需要 如 下 的 处 理 : 

(1) 直接 映射 。 数 据 源 字段 和 目标 字段 长 度 或 精度 相同 , 则 无 须 做 任何 处 理 。 

(2) 字符 串 处 理 。 从 数据 源 的 字符 串 字段 中 获取 特定 信息 作为 目标 数据 库 的 某 个 字 
段 , 则 对 字符 串 的 操作 有 类 型 转换 .字符 串 截取 等 。 由 于 字符 类 型 字段 的 随意 性 也 可 能 造成 
脏 数据 的 出 现 , 所 以 在 处 理 这 种 规则 的 时 候 , 需 要 异常 处 理 。 

(3) 字段 运算 。 对 于 数值 型 字段 来 说 ,有 时 数据 源 的 一 个 或 多 个 字段 进行 数学 运算 而 
得 到 目标 字段 , 则 需要 某 些 字段 运算 。 

(4) 空 值 判 断 。 对 于 数据 源 字 段 中 的 NULL 值 , 可 能 在 目标 数据 库 进行 分 析 处 理 时 会 
出 问题 ,因此 必须 对 空 值 进行 判断 ,并 转换 成 特定 的 值 。 

(5) 日 期 转换 。 由 于 目标 数据 库 中 的 日 期 类 型 格式 是 统一 的 ,所 以 对 数据 源 字段 的 日 
期 格式 需要 相应 的 转换 。 

(6) 聚集 运算 。 目 标 数据 库 事实 表 中 的 一 些 度量 字段 ,通常 需要 通过 数据 源 中 一 个 或 

i 


多 个 字段 运用 聚集 函数 进行 聚集 运算 得 来 .常用 的 聚集 函数 有 : sum count \avg .min .max。 
(7) 既定 取 值 。 这 条 规则 对 于 目标 字段 取 一 个 固定 的 或 是 依赖 系统 的 值 ,而 不 依赖 于 
数据 源 字段 。 


3.1.5 数据 加 载 


数据 加 载 负责 将 经 过 前 几 步 清洗 和 转换 后 的 数据 按照 目标 数据 库 元 数据 定义 的 表 结 构 
装 人 数据 仓库 。 加 载 数据 到 目标 数据 仓库 的 两 个 基本 方式 是 刷新 方式 和 更 新 方式 。 

刷新 方式 (refresh mode) 是 一 种 填充 数据 仓库 的 方法 ,采用 在 定期 的 间隔 对 目标 数据 
进行 批量 重 写 的 技术 。 也 就 是 说 ,目标 数据 起 初 被 写 进 数据 仓库 ,然后 每 隔 一 定 的 时 间 , 数 
据 仓库 被 重 写 ,替换 以 前 的 内 容 。 现 在 这 种 加 载 方式 越 来 越 不 流行 了 。 

更 新 方式 (update mode) 是 一 种 只 将 源 数据 中 的 数据 改变 写 进 数据 仓库 的 方法 。 为 了 
支持 数据 仓库 的 周期 ,便于 历史 分 析 ,新 记录 通常 被 写 进 数据 仓库 中 ,但 不 覆盖 或 删除 以 前 
的 记录 ,而 是 通过 时 间 戳 来 分 辩 它 们 。 

刷新 方式 通常 用 于 数据 仓库 首次 被 创建 时 填充 数据 仓库 。 更 新 方式 通常 用 于 目标 数据 
仓库 的 维护 。 刷 新 方式 通常 与 全 量 抽取 相 结合 ,而 更 新 方式 常 与 增 量 抽取 相 结合 。 


3.2 ETL 过 程 建 模 


ETL 过 程 是 传统 的 数据 处 理 过 程 ,其 输入 是 数据 仓库 数据 源 的 各 种 业务 处 理 系统 的 数 
据 库 , 输 出 部 分 是 数据 仓库 。ETL 过 程 通常 可 以 看 做 是 一 个 以 数据 处 理 为 中 心 的 工作 流 ， 
工作 流 中 包括 了 数据 抽取 、 数 据 转换 、 清 洗 以 及 数据 加 载 等 操作 。ETL 工具 是 负责 处 理 这 
一 类 流程 的 数据 集成 工具 。ETL 过 程 设计 的 正确 与 否 关系 到 数据 仓库 的 可 用 性 。 

ETL 过 程 的 设计 质量 往往 取决 于 能 否 对 业务 需求 和 数据 仓库 环境 进行 形式 化 建 模 。 
ETL 工作 流 模型 包括 ETL 概念 模型 和 ETL 逻辑 模型 两 部 分 。 

在 ETL 流程 设计 中 ,首先 应 该 根据 业务 需求 和 相关 数据 源 的 结构 建立 概念 模型 ,确定 
源 数据 库 与 目标 数据 库 之 间 的 映射 关系 ,然后 根据 概念 模型 建立 逻辑 模型 。 


3.2.1 ETL 系统 面临 的 挑战 


ETL 系统 是 一 个 既 简单 又 复杂 的 系统 ,ETL 系统 将 数据 从 各 种 业务 处 理 系统 导入 数 
据 仓库 ,为 决策 支持 应 用 提供 一 个 单一 的 权威 的 数据 源 。ETL 系统 面临 的 挑战 是 : 

(1) 对 于 ETL 开发 人 员 来 说 。 采 用 什么 开发 方法 才能 提高 数据 处 理 模 块 的 重用 性 ,并 
加 快 开发 周期 一 直 是 需要 面临 的 挑战 ,因此 需要 建立 一 个 ETL 框架 模型 来 指导 实际 开发 中 
的 架构 和 建 模 。 

(2) ETL 系统 中 数据 处 理 模块 通常 不 是 一 个 简单 的 数据 处 理 单元 ,通常 是 存在 着 大 量 
的 处 理 过 程 ,并 且 其 中 存在 着 非常 复杂 的 关系 (依赖 与 被 依赖 的 逻辑 关系 ), 这 也 意味 着 需要 
解决 数据 处 理 的 调度 问题 。 

(3) ETL 系统 面临 着 不 同 的 网 络 、 操 作 系 统 平台 、 数 据 库 、 数 据 格式 的 问题 。 如 何 解决 
对 数据 源 处 在 多 处 异地 的 抽取 问题 ,也 时 常 困扰 ETL 的 开发 者 。 
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3.2.2 ETL 过 程 描述 


数据 仓库 的 架构 大 体 可 以 分 为 三 部 分 : 后 台 是 数据 存储 和 计算 引擎 ;前 端 是 展示 分 析 
流程 或 分 析 结 果 的 界面 ; 另 一 部 分 就 是 ETL。ETL 就 像 是 数据 仓库 和 业务 系统 之 间 的 一 座 
桥梁 , 它 确保 新 的 业务 数据 能 源源 不 断 进 入 数据 仓库 ,同时 用 户 的 分 析 和 应 用 也 能 反应 出 最 
新 的 业务 动态 。 虽 然 ETL 在 数据 仓库 架构 的 三 部 分 中 技术 含量 并 不 算 高 ,但 其 涉及 到 大 量 
的 业务 逻辑 和 异 构 环境 ,因此 在 一 般 的 数据 仓库 项 目 中 ETL 部 分 往往 是 牵扯 精力 最 多 ,也 
是 最 耗费 时 间 的 一 环 。 如 果 从 整体 角度 来 看 ,ETL 主要 作用 在 于 其 屏蔽 了 复杂 的 业务 逻辑 
从 而 为 各 种 基于 数据 仓库 的 分 析 和 应 用 提供 了 统一 的 数据 接口 ,这 正 是 构建 数据 仓库 的 重 
要 目的 。 

ETL 负责 将 分 布 的 、 异 构 数 据 源 中 的 数据 ,如 关系 数据 、 文 本 数据 .HTML、XML 数据 
等 抽取 到 临时 中 间 层 后 进行 清洗 、 转 换 、 集 成 ,最 后 按照 预先 定义 好 的 数据 仓库 模型 ,将 数据 
加 载 到 数据 仓库 中 去 ,成 为 OLAP、 数 据 挖掘 、 可 视 化 报表 的 基础 。 数 据 ETL 过 程 如 图 3. 1 
所 示 。 


异 构 数据 源 临时 区 
关系 数据 库 清洗 
转换 加 载 数据 仓库 
汇总 
文本 数据 
图 3.1 ETL 过 程 


ETL 过 程 可 以 被 划分 为 两 种 类 型 : 全 量 ETL 过 程 和 增 量 ETL 过 程 。 全 量 ETL 过 程 
一 般 用 于 数据 仓库 的 初始 化 ,而 增 量 ETL 过 程 则 用 于 数据 仓库 的 增 量 维护 。 相 对 于 全 量 
ETL 过 程 而 言 , 增 量 ETL 过 程 设计 更 复杂 。 


3.2.3 ETL 概念 模型 


概念 建 模 是 整个 ETL 流程 设计 的 最 初 阶段 。 在 这 个 阶段 ,ETL 流程 设计 者 的 主要 任 
务 是 搜集 用 户 的 需求 ,然后 分 析 相 关 数 据 源 的 结构 及 其 内 容 , 确 定 抽取 操作 所 使 用 的 数据 
源 。ETL 概念 模型 主要 是 建立 数据 源 与 数据 仓库 的 模式 或 者 属性 之 间 的 映射 关系 ,以 及 在 
映射 过 程 所 需要 的 转换 和 清洗 操作 。 

ETL 概念 模型 并 不 针对 具体 的 工具 制定 ,与 数据 库 系统 无 关 ,与 应 用 程序 无 关 , 与 工具 
无 关 。 在 这 一 概念 级 中 ,不 必 考 虑 物理 实现 的 细节 ,只 把 注意 力 集中 在 构造 源 与 目标 实体 及 
属性 之 间 的 映射 和 转换 关系 上 。 

有 关 ETL 概念 模型 设计 中 使 用 的 基本 元 素 的 定义 如 下 : 

(1) 转换 (transform) 是 从 数据 源 到 目标 数据 仓库 属性 映射 过 程 中 对 数据 进行 必要 的 
转换 、 清 洗 操作 。 它 包括 了 数据 清洗 /过 滤 操 作 与 模式 转换 操作 。 

(2) 约束 (ETL constrain) 对 数据 集合 中 的 数据 必须 满足 的 某 些 条 件 进行 建 模 的 结果 。 
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(3) 数据 供应 关系 (provider relationship) 定义 从 数据 源 到 目标 数据 仓库 的 属性 之 间 的 
映射 关系 ,以 及 中 间 可 选 的 相关 转换 。 

例 3-1 ETL 工作 流程 概念 建 模 举例 。 

一 家 电子 商务 跨国 企业 ,需要 从 中 国 和 美国 两 个 分 公司 的 数据 库 抽 取 注 册 用 户 的 信息 


到 集中 的 数据 仓库 中 


进行 分 析 ,假设 数据 源 和 数据 仓库 中 的 模式 如 下 : 


S1.custamer (custamerlD,name,citylD,email,date) 

Sl.city (cityID, cityName, comtryName) 

S2.custcmer (name, countryName, cilyNamre, erail, date) 
IW.custamer (customerlD, name, countryName, cityName, email, date) 


对 于 这 个 ETL 场景 ,可 以 建立 如 图 3.2 所 示 的 概念 模型 。 其 中 ,Sl 和 S2 表示 数据 源 


中 的 表 ,LS 表示 临时 中 间 数 据 库 ,DW 表示 目标 数据 仓库 。 
S1. Customer Sl. City LS. S1 
customerID cityID customerID 
name cityName name 
cityID countryName countryName DW. Customer 
email cityName customerID 
date email name 
、 date countryName 
连接 本 hag | cityName 
email 
S2，Customer LS. S2 | date 
name 3 customerID 
countryName name 一 一 一 
cityName countryName 
email 日 期 cityName 
date 转换 email 
date 


图 3.2 ETL 概念 模型 


在 上 面 这 个 例子 中 ,为 了 保证 目标 数据 仓库 中 数据 的 完整 性 ,需要 从 S1 和 S2 两 个 数据 
源 抽取 数据 ,对 它们 执行 并 (union) 操 作 。 为 了 与 数据 仓库 中 事实 表 的 模式 一 致 ,必须 对 S1 
中 的 customer 表 和 city 表 执 行 外 连接 ,而 且 还 要 将 S2 中 date 属性 的 数据 类 型 为 日 期 格式 
(mm/dd/yyyy) 转 换 成 中 国 的 日 期 格式 (yy/mm/dd), 还 需要 根据 S2 的 其 他 属性 组 合 
(name、email) 为 S2 表 计 算 生 成 一 个 主键 。 其 中 ,并 运算 、 外 连接 运算 以 及 日 期 转换 属于 概 
念 模型 中 的 转换 (transform) ,PK 则 属于 约束 (ETL constrain)。 


3.2.4 ETL 逻辑 模型 


ETL 概念 模型 并 


F 不 是 一 个 完整 的 工作 流 模型 , 它 定 义 了 数据 源 与 目标 数据 仓库 


间 的 映射 关系 以 及 中 


间 必 要 的 转换 ,但 并 不 关注 转换 的 语义 以 及 执行 顺序 。 


属性 之 


ETL 流程 的 逻辑 模型 是 一 个 以 数据 为 中 心 的 工作 流 模 型 ,在 逻辑 建 模 阶段 ,ETL 流程 
的 设计 者 需要 明确 定义 数据 流 所 经 过 的 各 个 活动 的 操作 语义 ,并 确定 整个 流程 中 各 个 活动 


的 执行 顺序 。 


活动 (activity) 是 ETL 工作 流 的 基本 执行 单元 ,是 ETL 逻辑 模型 中 一 个 重要 元 素 。 它 
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定义 了 输入 数据 模式 .输出 数据 模式 、 活 动 的 操作 语义 以 及 活动 的 执行 优先 级 。 活 动 的 操作 
语义 定义 了 活动 对 输入 数据 所 执行 的 操作 ， 以 及 输入 数据 模式 到 输出 数据 模式 之 间 的 映射 
关系 ,可 以 使 用 SOL 语言 或 者 其 他 的 形式 化 语言 对 语义 进行 描述 ,也 可 以 使 用 ETL 工具 箱 
中 的 操作 组 件 和 相应 的 运行 时 参数 进行 表示 。 在 一 个 ETL 流程 中 ,必须 明确 规定 每 一 个 活 
动 的 执行 优先 级 ,ETL 流程 中 的 任意 两 个 活动 ,如 果 存 在 依赖 关系 , 即 一 个 活动 的 输入 模式 
依赖 于 另 一 个 活动 的 输出 模式 (不 一 定 是 相 邻 活动 ) ,那么 ,这 两 个 活动 构成 严格 偏 序 关系 ， 
可 以 确定 其 执行 的 先后 顺序 。 一 般 情况 下 ,在 一 个 ETL 流程 中 ,抽取 操作 (extract) 总 是 最 
先 执行 ,加 载 操作 (load) 最 后 执行 。 

ETL 逮 辑 模型 中 的 活动 对 应 于 ETL 概念 模型 中 的 转换 或 约束 ,但 它 提供 了 更 详细 的 
运行 时 信息 。 每 一 个 活动 都 必须 定义 明确 的 操作 语义 ,还 必须 规定 每 一 个 活动 的 执行 优 
先 级 。 

例 3-2 建立 对 应 例 3-1 概念 模型 的 逻辑 模型 图 。 

图 3.3 是 ETL 逻辑 模型 图 ,图 中 表示 了 主要 活动 的 语义 以 及 执行 优先 级 ,对 于 比较 明 
显 的 语义 没有 标 出 。 


抽取 
1 一 一 | 连接 
-| 2 一 一 一 一 一 一 并 运算 | 加载 
抽取 一 4 5 
1 
抽取 | .| PK |。| 日 期 格式 转换 
1 3 


图 3.3 ETL 逻辑 模型 


3.3 ETL 增 量 抽取 机 制 


增 量 抽取 是 ETL 实施 过 程 中 需要 重点 考虑 的 问题 。 在 ETL 过 程 中 , 增 量 更 新 的 效率 
和 可 行 性 是 决定 ETL 实施 成 败 的 关键 问题 之 一 。ETL 中 的 增 量 更 新 机 制 比较 复杂 ,采用 
何 种 机 制 往往 取决 于 源 数据 系统 的 类 型 以 及 对 增 量 更 新 性 能 的 要 求 。 

要 实现 增 量 抽取 ,关键 是 如 何 准确 快速 的 捕获 变化 的 数据 。 优 秀 的 增 量 抽取 机 制 要 求 
ETL 能 够 将 业务 系统 中 的 变化 数据 按 一 定 的 频率 准确 地 捕获 到 ,同时 不 能 对 业务 系统 造成 
太 大 的 压力 ,影响 现 有 业务 。 相 对 全 量 抽取 而 言 , 增 量 抽取 的 设计 更 复杂 。 目 前 增 量 数据 抽 
取 中 常用 的 捕获 变化 数据 的 方法 主要 有 以 下 几 种 。 


1. 触发 器 方式 


触发 器 方式 是 普遍 采取 的 一 种 增 量 抽取 机 制 。 该 方式 是 根据 抽取 要 求 ,在 要 被 抽取 的 
源 表 上 建立 插入 、 修 改 和 删除 3 个 触发 器 ,每 当 源 表 中 的 数据 发 生变 化 ,就 被 相应 的 触发 器 
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将 变化 的 数据 写 和 一 个 增 量 日 志 表 ,ETL 的 增 量 抽取 则 是 从 增 量 日 志 表 中 而 不 是 直接 在 源 
表 中 抽取 数据 ,同时 增 量 日 志 表 中 抽取 过 的 数据 要 及 时 被 标记 或 删除 。 


2. 时 间 戳 方式 


时 间 戳 方式 是 指 增 量 抽取 时 ,抽取 进程 通过 比较 系统 时 间 与 抽取 源 表 的 时 间 惟 字段 的 
值 来 决定 抽取 哪些 数据 。 这 种 方式 需要 在 源 表 上 增加 一 个 时 间 戳 字段 ,系统 中 更 新 修改 表 
数据 的 时 候 , 同 时 修改 时 间 惟 字段 的 值 。 

有 的 数据 库 ( 例 如 SQL Server) 的 时 间 戳 支持 自动 更 新 , 即 表 的 其 他 字段 的 数据 发 生 改 
变 时 ,时 间 戳 字段 的 值 会 被 自动 更 新 为 记录 改变 的 时 刻 。 在 这 种 情况 下 ,进行 ETL 实施 时 
就 只 需要 在 源 表 加 上 时 间 戳 字段 就 可 以 了 。 对 于 不 支持 时 间 戳 自动 更 新 的 数据 库 , 这 就 要 
求 业务 系 统 在 更 新 业务 数据 时 ,通过 编程 的 方式 手工 更 新 时 间 戳 字段 。 

使 用 时 间 惟 方式 可 以 正常 捕获 源 表 的 插入 和 更 新 操作 ,但 对 于 删除 操作 则 无 能 为 力 , 需 
要 结合 其 他 机 制 才能 完成 。 


3. 全 表 删 除 插入 方式 


全 表 删 除 插入 方式 是 指 每 次 抽取 前 先 删除 目标 表 数 据 , 抽 取 时 全 新 加 载 数据 。 该 方式 
实际 上 将 增 量 抽取 等 同 于 全 量 抽取 。 对 于 数据 量 不 大 ,全 量 抽取 的 时 间 代价 小 于 执行 增 量 
抽取 的 算法 和 条 件 代价 时 ,可 以 采用 该 方式 。 


4. 全 表 比 对 方式 


全 表 比 对 即 在 增 量 抽取 时 ,ETL 进程 逐条 比较 源 表 和 目标 表 的 记录 ,将 新 增 和 修改 的 
记录 读 取 出 来 。 


5. 日 志 表 方式 


对 于 建立 了 业务 系统 的 生产 数据 库 , 可 以 在 数据 库 中 创建 业务 日 志 表 , 当 特 定 需要 监控 
的 业务 数据 发 生变 化 时 ,由 相应 的 业务 系统 程序 模块 来 更 新 维护 日 志 表 内 容 。 增 量 抽 取 时 ， 
通过 读 日 志 表 数 据 决定 加 载 哪 些 数据 及 如 何 加 载 。 日 志 表 的 维护 需要 由 业务 系统 程序 用 代 
码 来 完成 。 


6. 系统 日 志 分 析 方式 


该 方式 通过 分 析 数 据 库 自身 的 日 志 来 判断 变化 的 数据 。 关 系 型 数据 库 系统 都 会 将 所 有 
的 DML 操作 存储 在 日 志文 件 中 ,以 实现 数据 库 的 备份 和 还 原 功 能 。ETL 增 量 抽取 进程 通 
过 对 数据 库 的 日 志 进 行 分 析 ,提取 对 相关 源 表 在 特定 时 间 后 发 生 的 DML 操作 信息 ,就 可 以 
得 知 自 上 次 抽取 时 刻 以 来 该 表 的 数据 变化 情况 ,从 而 指导 增 量 抽取 动作 。 有 些 数据 库 系统 
提供 了 访问 日 志 的 专用 的 程序 包 ( 例 如 Oracle 的 LogMiner) ,使 数据 库 日 志 的 分 析 工 作 得 
到 大 大 简化 。 

ETL 实施 过 程 中 究 竞 选择 哪 种 增 量 抽取 机 制 , 要 根据 实际 的 数据 源 系统 环境 进行 决 
策 , 需 要 综合 考虑 源 系统 数据 库 的 类 型 .抽取 的 数据 量 、 对 源 业务 系统 和 数据 库 的 控制 能 力 
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以 及 实现 难度 等 各 种 因素 ,甚至 结合 各 种 不 同 的 增 量 机 制 以 针对 环境 不 同 的 数据 源 系 统 进 
行 ETL 实施 。 


3.4 ETL 过 程 数据 质量 控制 


建立 数据 仓库 的 目的 是 为 数据 分 析 者 提供 准确 性 .一致 性 .完整 性 有效 性 的 数据 来 畏 
助 决策 ,因此 数据 仓库 中 必须 存储 的 是 具有 较 高 质量 的 数据 。 然 而 数据 仓库 中 的 数据 来 自 
于 多 种 数据 源 ,这些 数据 源 可 能 处 于 不 同 的 硬件 平台 上 ,使 用 不 同 的 操作 系统 和 数据 库 管理 
系统 ,因而 数据 在 编码 .命名 数据 类 型 .语义 等 方面 都 存在 着 较 大 的 冲突 。 

随 着 时 间 的 流失 ,冲突 问题 会 变 得 越 来 越 严重 。 造 成 这 些 数据 质量 问题 的 原因 很 多 , 比 
如 由 系统 集成 和 历史 数据 造成 的 原因 主要 有 以 下 这 些 ， 

(1) 业务 系统 不 同时 期 数据 模型 不 一 致 ; 

(2) 业务 系统 不 同时 期 业务 过 程 的 变化 ; 

(3) 旧 系 统 模块 在 运营 、 人 事 ,财务 .办 公 系 统 等 相关 信息 不 一 致 ; 

(4) 遗留 系统 和 新 业务 管理 系统 数据 集成 不 完备 。 

除 此 之 外 , 源 系统 输入 缺少 验证 手段 ,导致 非法 格式 的 数据 进入 系统 ;验证 但 不 能 改正 
数据 ,验证 程序 不 能 发 现 格式 正确 但 内 容 不 正确 的 错误 ; 源 系 统 不 受 控 制 的 更 改 ,而 这 种 更 
改 不 能 及 时 的 传送 到 受 影响 的 系统 ;数据 有 多 个 交叉 的 访问 界面 ,难以 统一 管理 数据 ;缺少 
参照 完整 性 检查 ;低劣 的 源 系统 设计 ;数据 转换 错误 ,如 由 ETL 过 程 或 数据 迁移 产生 的 新 错 

根据 “进去 的 是 垃圾 ,出 来 的 也 是 垃圾 ”这 条 原理 ,作为 数据 仓库 入 口 的 ETL ,实施 过 程 
中 的 数据 质量 问题 将 会 对 数据 仓库 中 的 数据 质量 产生 重大 的 影响 。 所 以 对 ETL 实施 过 程 
中 可 能 存在 的 质量 问题 进行 分 析 、 校 验 并 给 出 相应 的 解决 方法 ,将 具有 重大 的 意义 。 


3.4.1 数据 质量 问题 分 类 


由 于 数据 仓库 和 数据 源 的 数据 结构 不 同 ,所 以 通过 ETL 将 数据 加 载 到 数据 仓库 并 不 是 
数据 的 简单 复制 。 在 实施 数据 ETL 过 程 中 ,可 能 导致 许 许 多 多 的 数据 质量 问题 。 数 据 质 量 
问题 既 有 可 能 来 自 于 数据 源 ,又 有 可 能 来 自 于 ETL 的 实施 过 程 中 。 

数据 源 的 质量 很 大 程度 上 依赖 于 模型 和 完整 性 约 东 设计。 对 那些 无 结构 的 数据 源 , 例 
如 文本 文件 ,实现 约束 更 为 困难 。 由 这 些 非 结 构 的 数据 源 产生 的 错误 和 不 一 致 性 远 远 高 于 
结构 化 数据 ,相应 的 清洗 工作 是 一 个 尚未 解决 的 问题 。 数 据 库 系统 ,特别 是 关系 型 数据 库 系 
统 , 增 加 了 许多 诸如 键 值 非 空 .参照 完整 性 等 约束 ,如 果 模 型 设计 合理 ,约束 条 件 设计 详细 而 
精确 ,就 能 避免 表 中 出 现 脏 数据 。 但 正 是 由 于 人 类 自身 的 局 限 ,不 良 的 schema 设计 ,不 合 
理 的 约束 条 件 才 给 系统 带 来 不 少 问 题 。 此 外 ,有 些 instance 级 的 问题 (例如 拼写 错误 、 
schema 级 定义 的 属性 值 唯一 约束 不 能 避免 重复 记录 等 ) 并 不 是 由 schema 设计 造成 的 。 当 
然 , 无 论 schemalevel 还 是 instancelevel 的 数据 问题 ,都 是 ETL 应 该 解决 的 问题 。 

为 了 方便 这 些 问题 的 管理 和 解决 ,必须 对 它们 进行 分 类 抽象 。 可 以 根据 处 理 的 是 单数 
据 源 还 是 多 数据 源 以 及 问题 出 在 模式 层 还 是 实例 层 , 将 数据 质量 问题 分 为 四 类 : 单数 据 源 
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模式 层 问题 .单数 据 源 实例 层 问题 ,多 数据 源 模式 层 问题 和 多 数据 源 实 例 层 问题 。 表 3-1 列 
出 了 ETL 过程 中 出 现 的 数据 质量 问题 分 类 以 及 每 一 类 中 典型 的 数据 质量 问题 。 


表 3-1 数据 质量 问题 分 类 


数据 源 数 量 层 次 原 因 典型 的 表现 形式 
少 完 约束 ,糟糕 唯一 性 约束 
模式 层次 本 为 束 ,楼 糕 的 
模式 设计 引用 约束 
单数 据 源 拼写 错误 
实例 层次 数据 记录 的 错误 相似 重复 记录 
互相 矛盾 的 字段 
: 质 5 命名 冲突 
模式 层次 汪汪 省 代 于 全 人 
设计 结构 冲突 
不 一 致 的 汇总 
人 后 或 者 不 一 一 JJ 汇总 
实例 层次 宛 余 ` 互 相 矛 盾 或 者 不 
致 的 数据 不 一 致 的 时 间 选 择 


单数 据 源 模式 层 问题 主要 包括 模式 设计 的 不 合理 、 完 整 性 约束 的 缺少 (如 唯一 性 约束 、 
参照 完整 性 约束 ) 。 

单数 据 源 实例 层 问题 主要 是 数据 记录 错误 ,如 拼写 错误 .数据 丢失 值 ,无 效 的 数据 值 . 相 
似 重复 记录 、 值 与 字段 名 不 匹配 等 。 

多 数据 源 模式 层 问题 除了 单数 据 源 模式 层 问题 外 ,还 包括 数据 模型 异 构 、 命 名 和 结构 冲 
突 等 问题 。 

多 数据 源 实例 层 问 题 除 了 单数 据 源 实例 层 问题 外 ,还 包括 数据 元 余 、 互 相 巴 盾 和 不 一 致 
等 问题 。 


3.4.2 数据 质量 控制 技术 


过 去 ,数据 质量 被 认为 是 数据 本 身 的 概念 ,独立 于 数据 产生 和 使 用 的 环节 。 这 种 对 数据 
库 中 数据 固有 质量 的 关注 ,不 能 解决 复杂 的 组 织 数据 问题 。 现 在 数据 质量 界 比较 认同 的 观 
点 是 : 在 以 数据 为 中 心 的 系统 中 存在 数据 生产 者 、 数 据 管理 员 和 数据 消费 者 三 种 角色 。 其 
中 ,数据 生产 者 负责 数据 的 生产 过 程 ; 数 据 管 理 员 负 责 数 据 的 存储 维护 和 安全 ;而 数据 消费 
者 则 负责 数据 的 应 用 过 程 。 这 些 过 程 可 能 涉及 数据 的 进一步 聚集 和 集成 。 因 此 ,高 质量 的 
数据 就 是 指 那些 适合 于 消费 者 使 用 的 数据 。 有 用 性 和 可 用 性 成 了 数据 质量 的 两 个 重要 
特征 。 

1. 数据 质量 衡量 标准 

数据 质量 制约 着 决策 用 户 能 否 制定 正确 的 决策 ,考查 数据 质量 有 如 下 几 个 标准 : 

”数据 的 准确 性 ; 


”数据 符合 类 型 要 求 和 取 值 要 求 ; 
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。 数据 具有 完整 性 和 不 宛 余 ; 
*。 数据 是 集成 的 和 一 致 的 ; 
。 数据 是 及 时 的 ,遵循 业务 规则 ,满足 业务 要 求 。 


2. ETL 过 程 数据 质量 控制 


ETL 过 程 中 有 很 多 机 会 可 以 提高 数据 的 质量 。 可 以 在 数据 源 端 实施 数据 质量 控制 ,也 
可 以 在 ETL 过 程 中 实施 数据 质量 控制 。 

1) 数据 源 端 实施 数据 质量 控制 

数据 源 有 各 种 格式 ,平台 不 同 、 分 布 的 范围 也 很 广 。 有 些 数据 源 比 较 完整 ,而 有 些 则 有 
缺失 ,甚至 是 错误 的 值 。 在 数据 源 端 ,可 以 通过 修正 性 维护 来 避免 数据 质量 问题 。 下 面 给 出 
在 数据 源 端 常见 数据 质量 问题 的 解决 方法 。 

(1) 多 数据 源 的 异 构 问题 。 可 以 将 待 集成 的 多 个 数据 源 的 异 构 性 分 为 四 个 层次 , 即 系 
统 异 构 .语法 异 构 .结构 异 构 和 语义 异 构 。 系 统 级 异 构 是 指 不 同 的 主机 ,操作 系统 和 网 络 ; 语 
法 级 异 构 是 指数 据 类 型 .格式 的 差异 ;结构 级 异 构 是 指数 据 结构 ,接口 和 模式 上 的 不 同 ;语义 
级 异 构 是 指 在 一 定 领 域内 专用 的 词汇 意义 的 共享 和 交流 。 通 用 访问 接口 是 解决 系统 级 异 构 
最 成 熟 的 方法 , 如 Sun 公司 的 JDBC,Microsoft 公司 的 ODBC 和 OLEDB 等 。 元 数据 用 来 
解决 语法 级 异 构 ,ETL 利用 数据 转换 组 件 来 定制 转换 规则 ,以 调和 不 同 元 数据 的 差异 。 结 
构 级 异 构 通过 模式 集成 来 解决 ,首先 针对 不 同 的 数据 源 , 用 统一 的 形式 化 方法 将 它们 包装 成 
输出 模式 ,然后 利用 映射 机 构 将 输出 模式 改写 成 映射 模式 ,接着 由 模式 转换 得 到 各 个 成 员 模 
式 , 最 后 针对 各 个 成 员 模式 来 解决 各 种 模式 冲突 ,得 到 统一 的 集成 模式 。 语 义 级 异 构 最 为 复 
杂 , 将 语义 作为 底层 信息 和 数据 转换 的 基础 与 依据 ,可 以 提高 数据 转换 的 可 能 性 和 准确 性 ， 
这 正 是 数据 仓库 所 需要 的 ,但 ETL 所 要 处 理 的 数据 是 海量 的 ,因此 要 实现 集成 后 语义 的 一 
致 性 是 非常 困难 的 ,对 此 业界 中 至 今 还 没有 较 好 的 通用 解决 办 法 。 

(2) 数据 丢失 值 的 问题 。 引 起 数据 值 丢 失 的 原因 可 能 是 设备 异常 ,与 其 他 已 有 数据 不 
一 致 而 被 删除 ,因为 误解 而 没有 输入 数据 等 。 在 ETL 实施 中 对 丢失 的 数据 值 要 经 过 推断 而 
补 上 。 

(3) 相似 重复 记录 的 问题 。 解 决 相似 重复 记录 问题 就 是 要 解决 数据 集中 对 象 识别 问 
题 。 在 多 数据 源 上 直接 进行 对 象 识别 比较 困难 ,所 以 在 识别 前 一 般 先 对 原始 数据 进行 预 处 
理 , 即 将 多 数据 源 进行 模式 集成 得 到 单一 模式 ,在 该 单一 模式 上 完成 数据 校 验 和 数据 标准 化 
工作 后 再 开始 对 象 的 识别 。 识别 时 先 对 数据 集中 的 各 个 记录 作词 法 分 析 以 得 到 单词 的 集 
合 ,再 根据 各 记录 的 单词 集 统计 出 全 局 信息 , 据 此 计算 出 每 条 记录 的 特征 值 ( 该 值 一 般 为 数 
值 型 且 依 赖 于 记录 的 内 容 和 数据 集 的 全 局 信息 ), 接 下 来 进行 记录 的 相似 性 分 析 , 按 照 某 种 
原则 对 有 相似 记录 特征 值 的 记录 进行 逐 对 (pair-wise) 比较, 将 两 个 语义 上 等 价 的 记录 识别 
出 来 ,将 相似 重复 记录 进行 聚 类 ,每 个 聚 类 代表 现实 世界 的 一 个 单独 实体 ,最 后 对 其 中 多 条 
记录 采用 合并 或 删除 的 方法 来 实现 对 象 规约 。 

2) ETL 过 程 中 实施 数据 质量 控制 

ETL 过 程 中 的 数据 质量 问题 是 无 法 根治 的 ,但 必须 有 相应 的 保障 手段 。 可 以 采用 如 下 
的 手段 来 保障 ETL 过 程 中 的 数据 质量 。 
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(1) 数据 抽取 程序 严格 审核 。 抽取 的 结果 要 和 数据 源 系统 的 数据 定期 核对 ,数据 抽取 
人 逻辑 和 限制 条 件 要 注 明 。 

(2) 及 时 监控 数据 源 系统 的 变更 。 一 旦 数据 源 系统 发 生变 化 ,提供 告警 机 制 ,对 数据 抽 
取代 码 和 配置 信息 进行 及 时 更 新 ,以 保障 后 续 工 作 正常 进行 。 

(3) 确定 采信 数据 源 。 当 同类 的 数据 可 以 从 多 个 不 同 数据 源 采 集 到 时 ,需要 确定 采信 
规则 ,哪些 数据 是 可 信 的 ,哪些 数据 不 可 信 , 在 一 致 性 检查 中 非常 重要 。 

(4) 建立 故障 检测 机 制 。 由 于 故障 发 生 是 不 可 避免 的 ,因此 需要 建立 一 套 故 障 检 测 机 
制 , 定 期 对 系统 进行 扫描 ,以 及 时 发 现 故障 的 发 生 , 进 而 主动 采取 控制 措施 ,保证 系统 ETL 
的 正常 运行 。 

(5) 建立 数据 审核 机 制 。 在 经 过 ETL 处 理 之 后 ,需要 建立 一 个 可 追溯 的 控制 点 ,这 样 
可 以 层 层 对 数据 进行 审核 。 


3.5 ETL 并 行 处 理 技 术 


数据 仓库 中 的 数据 是 海量 的 和 与 时 间 相 关 的 。 这 就 需要 ETL 过 程 能 够 在 指定 时 间 段 
内 将 大 量 的 数据 从 各 个 分 布 数据 源 中 抽取 出 来 ,经 过 转换 加 载 到 数据 仓库 中 。ETL 过 程 速 
度 越 快 ,数据 仓库 中 的 数据 就 会 越 接 近 实 时 数据 ,那么 数据 仓库 上 层 决 策 支 持 系 统 (DSS) 的 
决策 结果 也 就 越 准确 。 在 提高 硬件 平台 性 能 之 外 ,构建 大 数据 吞吐 量 (throughput) 并 行 
ETL 过 程 是 加 速 ETL 处 理 速 度 的 有 效 途 径 。 

并 行 ETL 过 程 指 利用 现 有 技术 将 顺序 执行 的 ETL 流程 转换 为 多 个 并 行 处 理 的 过 程 。 
在 保证 数据 并 行 处 理 的 前 提 下 ,并行 ETL 过程 必须 保证 数据 的 完整 性 ,流程 的 可 靠 传输 以 
及 断 点 恢复 的 能 力 。 

目前 ,基本 的 多 线程 并 行 处 理 技术 分 为 三 种 : 任务 并 行 处 理 . 数 据 并 行 处 理 和 管道 并 行 
处 理 (pipeline parallelism) 。 任 务 并 行 处 理 是 最 基本 的 并 行 处 理 方式 ,主要 依靠 并 行 运行 多 
个 独立 的 任务 实现 。 数 据 并 行 处 理 是 指 并 行 处 理 单个 任务 中 的 独立 数据 元 组 (tuple)。 管 
道 并 行 处 理 则 是 将 单个 任务 划分 为 多 个 顺序 执行 的 步骤 ,之 后 按照 流水 线 方式 处 理 数据 元 
组 ,以 达到 ETL 过 程 中 多 个 步 又 并 行 执行 的 效果 。 


1. 确定 ETL 工作 流 活 动 优先 级 


在 ETL 逻辑 模型 中 ,必须 确定 每 一 个 活动 的 执行 优先 级 ,以 确定 整个 ETL 工作 流 的 执 
行 顺 序 。 在 确定 了 执行 的 优先 级 之 后 ,可 对 相互 之 间 没 有 依赖 关系 的 活动 并 行 执行 ,以 提高 
整个 ETL 工作 流 的 执行 效率 。 

ETL 逻辑 模型 可 能 会 存在 多 个 数据 供应 关系 ,每 一 个 数据 供应 关系 都 是 以 抽取 操作 开 
始 , 以 加 载 操作 结束 的 。 在 确定 活动 优先 级 的 时 候 , 把 每 一 个 抽取 操作 ( 即 起 始 操作 ) 的 优先 
级 定义 为 1( 假 定 ETL 工作 流 的 优先 级 从 数值 1 开始 ,依次 递增 ,数值 越 小 优先 级 越 高 ) , 然 
后 分 析 其 他 的 非 起 始 活动 。 对 于 每 一 个 尚未 确定 其 优先 级 的 活动 ,如 果 它 的 所 有 前 驱 活 动 
都 已 经 确定 了 优先 级 ,那么 可 以 通过 计算 它 的 所 有 前 驱 活动 优先 级 的 最 大 值 ,再 加 1 取得 。 
通过 遍历 活动 集中 的 所 有 活动 ,就 可 以 确定 ETL 工作 流 中 所 有 活动 的 优先 级 。 确 定 ETL 
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工作 流 活 动 优先 级 的 算法 描述 见 算法 3. 1。 

算法 3.1 确定 ETL 工作 流 活动 优先 级 。 

输入 : 图 G(V,E) 表 示 ETL 工作 流 ,V 表示 工作 流 中 的 活动 集 ,E 表示 活动 之 间 的 拓 
扑 关系 。 

输出 : 活动 节点 信 V, 包 含 了 ETL 工作 流 中 各 个 活动 的 执行 优先 级 信息 。 

1 uvisited=V; 

I2 foreadact inV{ 


I3 if(act € startactivity){ 

a act.order= 1; 

5 Visited visitedU {act}; 

6 unvisited unvisited- {act};}} 


I7 while(unvisited is not empty) { 
I8 for each act in unvisited { 


I9 if(V (a,act) € Eanda Eviited){ 
0 act.order=max{a.order}+ 1; 

I11 Visited visitedU {act}; 

L112 Urvisited= unvisited- {act};}}} 


在 上 面 的 算法 描述 中 ,Ll 将 活动 节点 集 的 所 有 活动 都 放 在 unvisited 数组 中 ,表示 所 有 
活动 都 是 未 访问 的 ;L2 一 L6 遍历 整个 节点 集 并 判断 活动 act 是 否 是 起 始 操作 ,如 果 是 则 将 
其 优先 级 设置 为 1 ,将 其 加 入 visited 数组 ,并 从 unvisited 数组 中 将 其 移 除 ;L7 一 L12 不 断 遍 
历 unvisited 数组 直到 其 为 空 ,L9 表示 如 果 一 个 活动 act 的 所 有 前 驱 活 动 的 优先 级 都 已 经 确 
定 , 则 act 的 优先 级 也 可 以 确定 ,L10 计算 act 所 有 前 驱 活动 优先 级 的 最 大 值 ,再 加 1 作为 
act 的 优先 级 ,同时 将 act 加 入 visited 数组 ,并 从 unvisited 数组 中 将 其 移 除 。 


2. 并 行 执 行 ETL 工作 流 中 的 活动 


确定 了 ETL 逻辑 模型 中 每 一 个 活动 的 优先 级 之 后 ,ETL 工作 流 引擎 会 按照 优先 级 从 
高 到 低 依次 执行 工作 流 中 的 每 一 个 活动 。 

在 使 用 串 行 方法 执行 的 工作 流 引擎 中 ,每 次 从 活动 集中 获取 优先 级 最 高 的 一 个 活动 并 
执行 ,执行 完 一 个 活动 之 后 再 选择 另 一 个 当前 优先 级 最 高 的 活动 执行 ,不 断 重 复 这 样 的 过 程 
直到 ETL 工作 流 中 的 所 有 活动 执行 完毕 。 

如 果 多 个 活动 的 优先 级 相同 ,在 上 述 的 串 行 方法 中 需要 依次 顺序 执行 这 些 活动 ,但 是 这 
些 活 动 是 可 以 并 行 执行 的 。 把 这 些 活动 放 进 一 个 执行 阶段 ,每 一 个 执行 阶段 都 是 一 个 容器 ， 
存放 多 个 优先 级 相同 的 活动 。 同 一 执行 阶段 的 活动 不 存在 依赖 关系 ,根据 前 面 的 讨论 ,存在 
依赖 关系 的 活动 构成 严格 偏 序 关系 ,其 优先 级 不 可 能 相等 ,并 行 执行 优先 级 相同 的 多 个 活动 
能 够 获得 更 高 的 时 间 效 率 。 

在 同一 执行 阶段 中 的 各 个 活动 ,在 执行 顺序 上 不 存在 依赖 关系 ,但 ETL 工作 流 是 以 数 
据 为 中 心 的 ,各 个 活动 处 理 的 对 象 是 数据 库 中 的 数据 表 或 者 操作 系统 中 的 文件 ,有 可 能 存在 
同一 执行 阶段 的 两 个 或 者 多 个 活动 对 同一 对 象 (数据 表 或 者 文件 ) 进 行 操作 的 情况 。 如 果 操 
作对 象 是 数据 库 中 的 数据 表 , 大 多 数 数据 库 管理 系统 都 有 比较 完善 的 并 发 执行 控制 机 制 ,所 
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以 ETL 工作 流 引擎 把 并 发 读 写 一 个 数据 表 所 需要 处 理 的 工作 (如 对 数据 表 加 锁 等 ) 交 给 相 
应 的 数据 库 管 理 系 统 进行 处 理 ;如 果 在 同一 执行 阶段 存在 多 个 活动 对 同一 个 文件 进行 操作 ， 
则 必须 把 这 些 活动 分 配 到 不 同 的 执行 阶段 中 执行 ,每 次 只 允许 相互 争夺 资源 ( 即 文件 ) 的 一 
个 活动 对 文件 进行 读 写 ,这 样 可 以 保证 ETL 工作 流 中 每 一 个 活动 所 处 理 的 数据 满足 一 致 性 
的 要 求 。 

通过 并 行 执行 多 个 活动 ,可 以 明显 提高 ETL 工作 流 的 执行 效率 ,在 更 短 的 时 间 之 内 完 
成 目标 数据 仓库 数据 的 加 载 与 更 新 ,使 数据 仓库 的 用 户 可 以 及 时 使 用 最 新 的 数据 进行 分 析 ， 
从 而 做 出 更 加 正确 的 决策 。 


3.6 小 结 


本 章 主 要 介绍 ETL 相关 概念 .ETL 过 程 建 模 、ETL 增 量 抽取 机 制 .ETL 过 程 数 据 质量 
控制 及 ETL 并 行 处 理 技术 等 知识 。 

ETL 过 程 通 常 可 以 看 做 是 一 个 以 数据 处 理 为 中 心 的 工作 流 , 工 作 流 中 包括 了 数据 抽 
取 、 数 据 转 换 、 清 洗 以 及 数据 加 载 等 操作 。 在 ETL 流程 设计 中 ,首先 应 该 根据 业务 需求 和 相 
关 数 据 源 的 结构 建立 概念 模型 ,确定 源 数据 库 与 目标 数据 库 之 间 的 映射 关系 ,然后 根据 概念 
模型 建立 逻辑 模型 。 

在 ETL 过 程 中 , 增 量 更 新 的 效率 和 可 行 性 是 决定 ETL 实施 成 败 的 关键 问题 之 一 。 
ETL 实施 过 程 中 究竟 选择 哪 种 增 量 抽取 机 制 ,需要 综合 考虑 源 系 统 数 据 库 的 类 型 .抽取 的 
数据 量 、 对 源 业务 系统 和 数据 库 的 控制 能 力 以 及 实现 难度 等 各 种 因素 。 

在 实施 数据 ETL 过 程 中 ,可 能 导致 许 许多 多 的 数据 质量 问题 ,必须 加 以 控制 ,以 保证 进 
入 数据 仓库 中 数据 的 质量 。 可 以 在 数据 源 端 实施 数据 质量 控制 ,也 可 以 在 ETL 过 程 中 实施 
数据 质量 控制 。 

ETL 并 行 处 理 技术 可 以 明显 提高 ETL 工作 流 的 执行 效率 ,在 更 短 的 时 间 之 内 完成 目 
标 数 据 仓 库 数 据 的 加 载 与 更 新 ,使 数据 仓库 的 用 户 可 以 及 时 使 用 最 新 的 数据 进行 分 析 , 从 而 
做 出 更 加 正确 的 决策 。 


3.7 习 题 

1. 填空 题 

(1) ETL 过 程 主要 包括 三 个 部 分 : 和 以 及 数据 的 加 载 。 

(2) ETL 工作 流 模型 包括 和 两 部 分 。 

(3) 触发 器 方式 是 普遍 采取 的 一 种 增 量 抽取 机 制 。 该 方式 是 根据 抽取 要 求 , 在 要 被 抽 
取 的 源 表 上 建立 和 3 个 触发 器 。 

(4) 一 般 情 况 下 ,在 一 个 ETL 流程 中 ， 操作 总 是 最 先 执行 ， 操作 最 后 
执行 。 

(5) 数据 质量 问题 既 有 可 能 来 自 于 :又 有 可 能 来 自 于 
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(6) 基本 的 多 线程 并 行 处 理 技术 分 为 3 种 : 和 管道 并 行 处 理 。 

(7) ETL 过 程 中 数据 质量 问题 分 为 四 类 : 单数 据 源 模式 层 问题 、 \ 多 数据 源 模 
式 层 问 题 和 

(8) ETL 过 程 可 以 被 划分 为 两 种 类 型 : 全 量 ETL 过 程 和 

(9) 加 载 数据 到 目标 数据 仓库 的 两 个 基本 方式 是 和 

(10) 控制 “ 脏 数 据 ? 对 数据 仓库 分 析 结 果 的 影 5 响 程 度 .采取 各 种 有 效 的 措施 对 其 行 处 
理 ,这 一 处 理 过 程 称 为 


2. 简 答题 


(1) 如 何 保障 ETL 过 程 中 的 数据 质量 ? 

(2) 增 量 数据 抽取 中 常用 的 捕获 变化 数据 的 方法 有 哪 几 种 ? 

(3) 如 何 处 理 空缺 数据 ? 

(4) 如 何 处 理 噪声 数据 ? 

(5) 简 述 数据 加 载 操 作 。 

(6) 在 ETL 过 程 中 会 出 现 哪 几 类 数据 质量 问题 ?分 析 其 产生 原因 。 


党 4 章 DLAP 技术 


OLAP 是 数据 仓库 上 的 分 析 展 示 工 具 , 它 建立 在 数据 多 维 视图 的 基础 上 ,可 以 提供 给 
用 户 强大 的 统计 、 分 析 、 报 表 处 理 功能 及 进行 趋势 预测 能 力 ,OLAP 主要 有 两 个 特点 : 一 是 
在 线性 即 联机 ,体现 为 对 用 户 请 求 的 快速 响应 和 交互 式 操作 ; 另 一 特点 是 多 维 分 析 , 数 据 的 
多 维 视图 使 用 户 能 从 多 角度 、 多 侧面 、 多 层次 的 查看 包含 在 数据 中 的 信息 ,数据 仓库 的 面向 
主题 的 特点 为 OLAP 的 建 模 提供 了 和 良好 的 基础 ,但 数据 仓库 并 不 能 自己 自行 分 析 , 还 需要 
借助 OLAP 工具 进行 更 好 的 展现 。 


4.1 OLAP 概述 


4.1.1 OLAP 的 定义 


OLAP 是 关系 数据 库 之 父 E. F，Codd 于 1993 年 最 早 提出 的 , 它 是 以 数据 库 或 数据 仓 
库 为 基础 的 ,在 基于 数据 仓库 的 信息 分 析 处 理 过 程 中 ,OLAP 是 数据 仓库 的 用 户 接口 部 分 ， 
它 面 对 的 是 决策 人 员 和 高 层 管理 人 员 ,通过 数据 立方 体 提供 多 维度 的 数据 视图 ,并 利用 旋 
转 、 切 片 等 操作 扩展 查询 语言 的 功能 , 它 力 图 将 数据 仓库 中 的 数据 转化 为 有 用 的 信息 ,从 而 
实现 对 数据 的 归纳 ,分 析 和 处 理 , 帮 助 企 业 完成 决策 。 

Codd 认为 联机 事务 分 析 处 理 (On-Line Transaction Processing, OLTP) 已 不 能 满足 终 
端 用 户 对 数据 库 查询 分 析 的 需求 ,SQL 对 大 型 数据 库 进 行 的 简单 查询 也 不 能 满足 用 户 分 析 
的 需求 。 用 户 的 决策 分 析 需 要 对 关系 数据 库 进行 大 量 计算 才能 得 到 结果 ,而 查询 结果 不 能 
满足 决策 者 提出 的 需求 。 因 此 ,Codd 提出 了 多 维 数据 库 和 多 维 分 析 的 概念 ,在 通常 意义 上 
是 指针 对 特定 问题 的 联机 数据 访问 和 分 析 。 在 OLAP 查询 分 析 中 ,系统 首先 要 对 原始 数据 
按照 用 户 的 观点 进行 转换 处 理 , 使 这 些 数据 能 够 真正 反映 用 户 眼 中 间 题 的 某 一 真实 方面 , 然 
后 以 各 种 可 能 的 方式 对 这 些 数据 进行 快速 .稳定 一致 和 交互 的 存 取 ,并 允许 用 户 对 这 些 数 
据 按照 需要 进行 深入 的 观察 。 

OLAP 是 针对 特定 问题 的 联机 访问 和 分 析 , 通 过 对 信息 或 维 数据 的 多 种 可 能 的 观察 形 
式 进行 快速 地 稳定 地 一致 地 和 交互 性 的 存 取 ,允许 管理 决策 人 员 对 数据 进行 深入 观察 。 
对 于 其 准确 的 定义 目前 还 没有 一 个 统一 的 说 法 ,但 人 们 普遍 接受 1995 年 OLAP 专门 研究 
机 构 OLAP Report 提出 的 一 个 关于 OLAP 的 简明 定义 FASMI (Fast Analysis of Shared 
Multidimensional Information ) 。 

(1) 快速 性 (Fast) 。 系 统 必须 能 快速 响应 用 户 的 分 析 查 询 要 求 , 对 于 用 户 大 部 分 分 析 
要 求 在 5 秒 钟 内 做 出 反应 ,和 否则 超过 30 秒 用 户 可 能 会 失去 分 析 的 主线 索 ,影响 分 析 质 量 。 
如 果 数 据 量 很 大 ,为 了 达到 合适 的 响应 速度 需要 采取 一 些 措施 ,如 专门 的 数据 存储 形式 ,大 
量 的 事先 运算 ,或 者 采用 特别 的 硬件 设备 等 。 
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(2) 分 析 性 (Analysis)。OLAP 系统 能 处 理 任何 与 用 户 和 应 用 有 关 的 逻辑 分 析 和 统计 
分 析 ,在 需要 的 情况 下 还 允许 用 户 无 须 编 程 就 可 为 分 析 和 生成 报表 定义 一 些 新 的 特殊 运算 ， 
将 其 作为 分 析 的 一 部 分 ,并 以 用 户 理 想 的 方式 给 出 报告 。 用 户 可 以 在 OLAP 平台 上 进行 数 
据 分 析 , 也 可 以 与 其 他 外 部 分 析 工 具 交互 信息 ,同时 应 提供 灵活 开放 的 报表 处 理 功能 ,保存 
分 析 结 果 。 

(3) 共享 性 (Shared) 。 即 OLAP 应 能 实现 在 多 用 户 环境 下 的 安全 保密 要 求 和 并 发 控 
制 。 多 个 用 户 同时 使 用 ,能 够 根据 用 户 所 属 的 安全 级 别 , 让 他 们 只 能 看 到 自身 权限 下 的 
信息 。 

(4) 多 维 性 (Multidimensional) 。 指 对 数据 分 析 的 多 维 视图 和 分 析 , 是 OLAP 的 关键 属 
性 ,包括 对 层次 维和 多 重 层次 维 的 支持 。 

(5) 信息 性 (Information)。 指 OLAP 系统 管理 数据 和 获得 信息 的 能 力 , 能 管理 大 量 的 
数据 并 即时 地 获得 用 户 所 需 信息 。 这 里 有 许多 因素 需要 考虑 ,如 数据 的 可 复制 性 、 可 利用 的 
磁盘 空间 、OLAP 产品 的 性 能 及 与 数据 仓库 的 结合 度 等 。 


4.1.2 数据 仓库 与 数据 分 析 的 关系 


随 着 计算 机 技术 ,数据 库 技术 以 及 数据 仓库 技术 的 迅速 发 展 ,人 们 往往 认为 只 要 建立 了 
先进 的 数据 仓库 ,就 能 获得 有 价值 的 信息 。 实 际 上 ,数据 仓库 的 技术 仅仅 解决 了 信息 的 存储 
问题 ,提高 了 数据 的 存储 效率 。 数 据 仓库 只 有 结合 了 数据 分 析 技 术 后 ,才能 获得 最 大 的 
效益 。 

数据 仓库 与 数据 分 析 的 有 如 下 的 关系 。 


1. 数据 仓库 提供 数据 源 


数据 仓库 面向 的 是 数据 的 整理 。 这 种 整理 过 程 有 一 定 目的 性 ,是 为 进行 决策 分 析 做 准 
备 的 。 因 此 ,在 数据 仓库 中 也 提 到 了 数据 仓库 的 主题 。 另 一 方面 ,为 了 给 更 多 的 决策 活动 提 
供 数 据 源 依据 ,也 要 求 数据 仓库 能 够 比较 客观 、 全 面 地 反映 系统 的 全 貌 , 由 此 产生 了 数据 仓 
库 的 建 模 工 作 ,并 通过 各 种 视图 ,向 数据 分 析 系统 展现 数据 源 的 情况 。 


2. 数据 分 析 提 供 分 析 方 法 


数据 仓库 完成 了 有 关 的 数据 整理 之 后 ,数据 分 析 将 为 最 终 的 决策 提供 具体 的 分 析 方 法 ， 
每 种 方法 都 是 对 数据 仓库 中 隐藏 进行 分 析 的 过 程 。 方 法 的 好 坏 , 将 直接 影响 最 终 的 分 析 能 
力 , 因 此 ,数据 分 析 方法 也 很 重要 。 


3. 数据 分 析 并 非 完 全 依赖 于 数据 仓库 


数据 分 析 技 术 的 发 展 , 并 不 完全 依赖 于 数据 仓库 ,也 可 以 直接 对 各 种 源 数据 进行 分 析 。 
OLAP 技术 是 一 种 多 维 数据 分 析 技 术 ,侧重 于 数据 仓库 的 数据 分 析 , 为 管理 者 提供 信 
息 支 持 。 对 于 决策 分 析 而 言 ,历史 数据 是 相当 重要 的 ,许多 分 析 方 法 必须 以 大 量 的 历史 数据 
为 依托 ,如 果 没 有 对 历史 数据 的 详细 分 析 , 则 难以 把 握 企业 的 发 展 趋势 。 
OLAP 分 析 与 数据 仓库 的 关系 十 分 紧密 。 数 据 仓 库 的 建立 ,解决 了 依据 主题 进行 数据 
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存储 的 问题 ,提高 了 数据 的 存 取 速 度 ,而 OLAP 分 析 构成 了 数据 仓库 的 表现 层 , 将 数据 仓库 
中 的 数据 通过 不 同 的 维和 指标 ,灵活 地 展现 出 来 ,提高 了 数据 的 展现 能 力 ,进而 提高 了 数据 
的 分 析 能 力 。 

可 以 发 现 ,OLAP 对 数据 仓库 具有 很 强 的 依赖 性 ,没有 数据 仓库 , OLAP 将 很 难 实现 。 
同样 ,在 数据 仓库 选择 主题 时 ,也 要 参考 OLAP 分 析 的 维度 、 指 标 ,这 样 数据 仓库 才能 够 更 
好 地 为 信息 进行 服务 ,并 为 决策 者 进行 业务 分 析 提 供 依据 。 否 则 数据 将 因为 无 法 展现 ,而 成 
为 黑 盒子 中 的 “ 死 ” 数 据 , 无 法 为 决策 分 析 服 务 。 


4.1.3 多 维 分 析 的 基本 概念 


OLAP 实际 上 是 以 多 维 视 图 的 形式 展示 给 用 户 的 ,因此 ,多 维 结构 是 OLAP 的 核心 。 
下 面 对 多 维 数据 分 析 中 的 基本 概念 ,例如 多 维 数据 集 、 维 、 度 量 、 维 的 层次 、 维 成 员 等 相关 概 
念 进行 介绍 。 理 解 这 些 基本 概念 对 理解 OLAP 乃至 数据 仓库 是 十 分 重要 的 。 


1. 多 维 数据 集 


多 维 数据 集 (cube) 是 OLAP 中 的 主要 对 象 ,通常 也 称 做 多 维 立 方 体 ,是 一 项 可 对 数据 
仓库 中 的 数据 进行 快速 访问 的 技术 。cube 是 一 个 数据 集合 ,通常 由 数据 仓库 的 子 集 构造 ， 
把 一 组 维度 和 度量 值 合理 组 织 , 最 后 汇总 成 多 维 结构 。 每 个 cube 都 有 一 个 架构 ,架构 是 数 
据 仓库 中 已 连接 的 各 表 的 集合 ,多 维 数据 集 能 从 数据 仓库 提取 源 数据 。 

多 维 数据 集 可 以 用 一 个 多 维 数组 来 表示 ,例如 ,经 典 的 时 间 、 地 理 位 置 和 产品 的 多 维 数 
据 集 可 以 表示 为 : (时 间 , 地 理 位 置 ,产品 ,销售 数据 )。 可 以 看 出 ,在 多 维 数据 集中 ,用 ( 维 1， 
维 2,…, 维 ,观察 变量 ) 的 方式 进行 表达 。 

对 于 三 维 数据 集 用 图 4. 1 所 示 的 可 视 化 方式 表达 得 更 清楚 ,但 是 在 多 维 结构 中 并 不 是 
要 观察 维度 结构 ,而 是 要 观察 由 维度 结构 所 描述 的 观察 变量 ,也 就 是 说 要 在 这 个 三 维 结构 上 
再 添加 销售 数据 ,这 就 得 到 了 一 个 由 三 维 所 对 应 的 销售 数据 。 对 于 超过 三 维 的 多 维 数据 集 
结构 可 以 用 一 个 多 维 表 来 显示 。 例 如 ,由 时 间 、 地 理 位置 产 品 和 促销 方式 所 构成 的 四 维 数 
| 


销售 地 区 
We 
服装 切片 
销售 数量 
北京 10 000 
上 海 化 妆 品 
玩具 
江苏 服装 
电器 
0 时 间 ( 月 ) 


图 4.1 以 时 间 、 销 售 地 区 产品 三 个 维度 所 构成 的 多 维 数据 库 
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据 集 就 可 以 用 表 4-1 所 示 的 方式 来 表达 。 这 种 超 三 维 的 数据 集 表示 方式 在 许多 数据 仓库 工 
具 中 都 得 到 了 采用 。 
表 4-1 三 维 以 上 的 多 维 数据 集 


时 间 ID 
2002-01-31 
2002-02-28 
2002-03-31 
地 理 位 置 ID 
320112 
320218 
320232 
产品 ID 
All 
Al2 
B11 
B12 
促销 方式 ID 
ABC 
BAC 
CAB 
时 间 ID 地 理 位 置 ID 产品 ID 促销 方式 ID 销售 数据 其 他 数据 
2002-01-31 320112 All ABC 6484 
2002-01-31 320218 Al2 BAC 5739 
2002-01-31 320232 B11 CAB 5733 
2002-01-31 320112 B12 ABC 7945 
2002-01-31 320218 All BAC 7545 
2002-02-28 320232 Al2 CAB 7846 
2002-02-28 320112 B11 ABC 1237 
2002-02-28 320218 B12 BAC 7878 
2002-02-28 320232 All CAB 8364 
2002-03-31 320112 Al2 ABC 5488 
2002-03-31 320218 B11 BAC 3778 
2002-03-31 320232 B12 CAB 7893 
2002-03-31 320112 All ABC 8884 
2002-03-31 320218 B12 BAC 7892 


OLAP 对 海量 数据 进行 分 析 时 ,通常 以 多 维 视图 作为 各 种 前 端 分 析 工 具 的 概念 模型 ， 
为 用 户 从 多 个 角度 考察 和 分 析 数 据 提供 直观 的 支持 。 为 此 ,人 们 提出 了 数据 立方 (data 
cube) 概 念 。 数 据 立 方 以 多 维 的 方式 组 织 数据 仓库 中 的 数据 ,向 决策 支持 人 员 提 供 数据 的 多 
维 概念 视图 ,直观 地 支持 了 OLAP 所 需 的 复杂 多 维 分 析 。 

数据 立方 最 早 由 Jim Gray 等 在 ICDE?96 大 会 上 提出 ,其 定义 的 数据 立方 算 子 (cube by 
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算 子 ) 是 传统 关系 型 数据 库 中 group by 算 子 的 多 维 扩展 ,用 于 计算 cube by 子 句 中 各 属性 的 
所 有 可 能 组 合 所 对 应 的 group by。 

数据 立方 算 子 一 经 定义 ,就 引起 了 学 术 界 和 工业 界 的 广泛 关注 。 学 术 界 在 数据 立方 的 
计算 存储、 索引 ` 查 询 以 及 维护 等 方面 进行 了 大 量 的 研究 工作 。 


2. 维度 


维度 (dimension) 指 的 是 分 析 对 象 的 描述 属性 ,用 于 表示 人 们 观察 数据 的 特定 角度 ,是 
表达 和 分 析 信 息 的 一 种 基本 方法 。 多 维 数据 集 是 按照 这 些 分 析 角 度 来 进行 组 织 数据 。 例 
如 ,移动 决策 者 分 析 的 角度 通常 包括 : 时 间 、 地 域 .业务 品牌 .业务 种 类 、 年 龄 段 、 消 费 层次 、 
客户 类 型 等 。 决 策 者 经 常 分 析 手 机 用 户 数 随 着 时 间 推 移 而 产生 的 变化 情况 ,那么 时 间 就 成 
为 了 手机 用 户 数 上 的 一 个 维度 分 析 , 即 时间 维 。 而 当 决策 者 要 从 地 区 的 差异 来 考察 手机 用 
户 数 不 同时 ,地 区 也 就 成 了 手机 用 户 数 上 的 维 。 这 些 都 属于 决策 分 析 的 角度 或 分 析出 发 点 。 

用 户 决策 分 析 角 度 或 决策 分 析出 发 点 就 是 数据 仓库 中 的 维度 ,数据 仓库 中 的 数据 就 是 
按照 这 些 维度 来 组 织 , 维 也 就 成 了 数据 仓库 中 识别 数据 的 索引 。 同 时 ,数据 仓库 中 的 维 还 可 
以 作为 数据 仓库 操作 过 程 的 路 径 ,这 些 路 径 通常 位 于 维 的 不 同 层 次 结构 中 。 客 户 可 以 按照 
地 理 位 置 进行 分 组 : 街道 .县 .市 省, 这样 就 可 以 按照 街道 .县 .市 .省 的 先后 次 序 进行 数据 
的 “上 卷 ? 和 "下 钻 ”。 这 里 ,所 谓 的 数据 “上 卷 " 是 指 用 户 在 数据 仓库 的 应 用 中 ,从 较 低 层次 开 
始 逐 步 将 数据 按照 不 同 的 层次 进行 概括 处 理 ; 而 “下 钻 ? 则 是 指 从 数据 仓库 中 的 高 层 数 据 开 
始 逐 步 向 低层 数据 探索 ,了 解 组 成 概括 数据 的 具体 细节 。 

数据 仓库 中 的 维 ,一 般 具 有 水 平 层次 和 垂直 层次 。 水 平 层 次 由 维度 层次 中 相同 级 别 的 
字段 值 构成 ,例如 图 4. 2 中 的 华东 、 华 中 和 西南 层次 ;垂直 层次 则 由 维度 层次 结构 中 具有 不 
同 级 别 的 字段 值 构 成 ,例如 图 4. 2 中 的 华东 、 上 海 层次 。 


销售 地 | 
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华东 华中 西南 


| 1 | 1 | 1 


上 海 | [江苏 地 区 | 【 湖北 | [河南 地 区 | [云南 | [ 四 川 地 
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图 4.2 维度 层次 关系 
在 数据 仓库 的 设计 中 ,要 根据 用 户 需求 调查 所 获取 的 维 来 构成 数据 仓库 的 模型 。 
3. 度量 


度量 (measure) 值 是 多 维 数据 集 的 核心 值 ,是 进行 OLAP 操作 的 用 户 所 要 观察 分 析 的 
数据 ,这 些 数据 一 般 是 销售 量 、 成 本 和 费用 等 。 在 一 个 多 维 数据 集中 可 以 存在 多 个 度量 ,这 
些 值 是 基于 多 维 数据 集中 事实 表 的 一 列 或 多 列 ,这 些 值 应 该 是 数字 型 的 ,一 般 具 有 可 加 性 。 
多 维 数据 集 由 其 所 包含 的 度量 和 维度 共同 定义 。 
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4. 维 的 等 级 


当 从 某 个 特定 角度 来 分 析 数 据 时 ,往往 需要 在 不 同 的 细节 程度 上 进行 考察 ,这 种 描述 具 
体 细 节 的 程度 称 为 维 的 等 级 (level) 。 一 个 维 有 可 能 具有 多 个 等 级 ,比较 典型 的 如 时 间 维 ,一 
般 有 年 .季度 .月 .星期 .日 等 不 同 的 细节 程度 ,这 些 都 构成 了 时 间 维 上 的 等 级 (level of 
dimension) 。 对 于 一 个 维 , 至 少 有 一 个 ALL 等 级 ,用 于 表示 最 高 的 等 级 。 


5. 维 成 员 值 


维 上 的 一 个 取 值 称 为 该 维 的 一 个 维 成 员 值 (dimension member value) 。 由 于 维 具 有 层 
次 性 ,因此 当 维 具有 多 个 等 级 时 , 维 成 员 值 由 各 个 等 级 的 所 有 取 值 组 合 而 成 。 例 如 ,时 间 维 
由 年 月 .日 3 个 等 级 构成 ,“20090101” 就 是 时 间 维 的 一 个 维 成 员 值 。 对 一 个 多 维 数据 集 ( 数 
据 立方 体 ) 中 的 数据 项 来 说 , 维 成 员 值 标 识 了 数据 项 在 这 个 维 上 位 置 的 描述 。 


6. 等 级 成 员 


某 个 维 等 级 的 具体 值 称 为 该 等 级 的 一 个 成 员 。 等 级 成 员 (member oflevel) 表 示 了 该 等 
级 中 所 含 数据 的 一 个 分 类 。 例 如 ,“ 湖 南 省 ”为 地区” 维 "省 ”等 级 的 一 个 成 员 , 也 是 一 个 特定 
的 地 区 分 类 。 


7. 粒度 


粒度 (granulariyt) 是 数据 仓库 中 数据 综合 程度 高 低 的 一 个 度量 。 粒 度 越 小 ,数据 细节 
程度 越 高 ,综合 程度 越 低 ; 粒 度 越 大 ,数据 细节 程度 越 低 , 综 合 程度 越 高 。 在 数据 仓库 系统 
中 ,对 于 不 同 层次 的 分 析 要 求 需要 不 同 粒度 的 数据 。 


8. 数据 单元 格 


数据 单元 格 是 多 维 数据 集 的 取 值 。 当 在 多 维 数据 集中 的 每 个 维 都 选中 一 个 维 成 员 以 
后 ,这 些 维 成 员 的 组 合 就 已 确定 了 观察 变量 的 值 , 可 以 表示 为 ( 维 1 维 成 员 , 维 2 维 成 员 ,…， 
维 n 维 成 员 , 变 量 的 值 ) 。 


9. 聚集 


聚集 或 聚合 是 指 收 集 了 基本 事务 数据 的 结构 。 在 一 个 立方 体 中 包括 很 多 层次 ,这 些 层 
次 可 以 向 用 户 提供 某 一 层次 的 概括 数据 。 因 为 管理 者 在 进行 决策 分 析 的 过 程 中 ,并 不 是 要 
观察 每 一 个 详细 的 数据 ,而 是 根据 自己 的 管理 范围 进行 总 体 情况 的 了 解 。 例 如 ,地 区 销售 经 
理想 了 解 本 地 区 的 销售 总 量 、 未 来 的 销售 趋势 、 客 户 的 类 型 ,那么 就 需要 按照 本 地 区 的 城市 、 
街道 .产品 种 类 和 客户 类 型 进行 概括 ,也 就 是 进行 聚集 。 通 过 聚集 ,形成 基于 维 的 有 决策 分 
析 意 义 的 一 些 数 据 交 集 。 


4.1.4 OLAP 的 多 维 数据 分 析 


多 维 分 析 是 对 多 维 数据 集中 的 数据 采取 切片 . 切 块 等 多 种 分 析 动 作 , 以 求 剖 析 数 据 。 用 
户 可 以 从 多 个 角度 、 多 个 侧面 .多 个 层次 来 观察 多 维 数据 , 从 而 发 气 数 据 中 蕴含 的 对 自己 有 
i 


用 的 信息 。 
1. 多 维 切片 


在 多 维 分 析 过 程 中 ,如 果 对 多 维 数据 集 的 某 个 维 选 定 一 维 成 员 ,这 种 选择 操作 就 成 为 切 
片 (slice)。 也 即 : 如 有 ( 维 1, 维 2,…, 维 i,…, 维 ,观察 变量 ) 多 维 数据 集 , 对 维 i 选 定 了 某 
个 维 成 员 , 则 ( 维 1, 维 2,…, 维 i,…, 维 ,观察 变量 ) 就 是 多 维 数据 集 ( 维 1, 维 2,…， 
维 i,…, 维 nn, 观 察 变量 ) 在 维 i 上 的 一 个 切片 。 这 种 切片 的 数量 完全 取决 于 维 i 上 的 维 成 员 
的 个 数 ,如果 维 成 员 的 个 数 越 多 ,可 以 做 的 切片 也 就 越 多 。 

在 切片 的 概念 中 ,有 两 个 重要 事实 必须 要 了 解 : 一 个 是 进行 切片 操作 的 目的 是 使 用 户 
能 够 更 好 地 了 解 多 维 数据 集 ,通过 切片 的 操作 可 以 降低 多 维 数据 集 的 维度 ,使 用 户 能 将 注意 
力 集 中 在 较 少 的 重要 维度 上 进行 观察 ,也 就 是 说 能 够 将 注意 力 集中 在 经 营 管理 中 所 感 兴趣 
的 影响 因素 上 对 经 营 管理 中 的 问题 进行 分 析 ; 男 一 个 是 多 维 数据 集 切片 数量 多 少 是 由 所 选 
定 的 那个 维 的 成 员 数 量 的 多 寡 决 定 的 。 


2. 多 维 的 切 块 


与 切片 类 似 , 如 在 一 个 多 维 数据 集中 对 两 个 及 两 个 以 上 的 维 选 定 维 成 员 的 操作 可 以 称 
为 切 块 (dice) , 即 在 ( 维 1, 维 2,…, 维 i,…, 维 k,…, 维 ,观察 变量 ) 多 维 数据 集 上 ,对 
维 7,…, 维 &, 选 定 了 维 成 员 , 则 ( 维 1, 维 2,…, 维 i 成 员 ,…, 维 成 员 ,…, 维 ,观察 变量 ) 
就 是 多 维 数据 集 ( 维 1, 维 2,…, 维 7,…, 维 k,…, 维 ,观察 变量 ) 在 维 i,…, 维 k 上 的 一 个 切 
块 。 显然 , 当 i 二 =k 时 , 切 块 操作 就 退化 成 切片 操作 。 


3. 上 卷 


上 卷 (roll-up) 是 对 数据 进行 更 为 宏观 的 观察 。 通 过 一 个 维 的 概念 分 层 向 上 攀升 或 者 通 
过 维 规约 ,对 数据 立方 体 进行 聚集 。 上 卷 操作 实现 维 的 简化 操作 ,可 将 指定 维 的 幅度 缩小 或 
删除 指定 维 。 如 按时 间 维 表 上 卷 ,可 以 获得 用 户 每 段 时 间 (1 个 季度 或 1 年 ) 浏 览 情况 的 


4. 下 钻 


下 钻 (drill-down) 是 对 数据 进行 更 为 详细 的 观察 。 下 钻 操作 是 上 卷 的 逆 操 作 ,通过 沿 着 
维 的 概念 分 层 向 下 或 引入 新 的 维度 值 实现 ,下 钻 操作 可 以 获得 更 详细 的 数据 。 如 对 时 间 维 
度 进行 下 钻 操作 ,将 其 细 化 到 季度 ,甚至 可 以 详细 到 日 期 。 

上 卷 和 下 钻 的 深度 与 维 所 划分 的 层次 相对 应 ,上 卷 分 析 的 细 化 程度 越 低 ,粒度 越 大 。 下 
钻 分 析 的 细 化 程度 越 高 ,粒度 越 小 。 


5. 旋转 


旋转 (pivot) 又 称 为 转轴 (rotate) ,其 将 立方 体 的 各 个 维 的 角度 进行 转动 。 转 动 数 据 的 
视角 ,提供 数据 的 蔡 代 表示 ,使 用 户 能 够 更 加 直观 地 显示 所 要 查询 的 数据 。 在 对 数据 仓库 的 
多 维 数据 集 进行 显示 操作 过 程 中 ,用 户 常常 希望 能 将 多 维 数据 集 改变 其 显示 的 维 的 方向 ,也 

。84 。 


就 是 说 进行 多 维 数据 集 的 旋转 操作 。 旋 转 操作 可 将 多 维 数据 集中 的 不 同 维 进行 交换 显示 ， 
以 使 用 户 更 加 直观 地 观察 数据 集中 不 同 维 之 间 的 关系 。 如 原来 横 坐 标 为 时 间 维 , 纵 坐标 为 
地 区 维 。 通 过 旋转 可 以 使 横 坐 标 为 地 区 维 , 纵 坐 标 为 时 间 维 。 这 样 可 以 从 另 一 个 角度 观察 
由 时 间 维和 地 区 维 所 构成 的 销售 数据 集 , 如 图 4. 3 所 示 。 


2002 年 2003 年 
1 季度 | 2 季度 | 3 季度 | 4 季度 | 1 季度 | 2 季度 | 3 季度 | 4 季度 
北京 市 123 56 45 66 134 | 56 23 55 
上 海 市 134 103 98 87 102 | 139 97 82 
天 津 市 67 3 59 96 73 | 69 62 94 
北京 市 上 海 市 天 津 市 
=2002 年 1 季度 123 134 67 
2 季度 56 103 73 
3 季度 45 98 59 
4 季度 66 87 96 
2003 年 1 季度 134 102 73 
2 季度 56 139 69 
3 季度 23 97 62 
4 季度 55 82 94 


图 4.3 多 维 数据 集 的 旋转 


有 些 OLAP 还 提供 其 他 钻 取 操作 。 钻 过 (drill across) 执 行 涉及 多 个 事实 表 的 查询 ,而 
钻 透 (drill through) 操 作 使 用 关系 SQL 机 制 , 钻 到 数据 立方 体 的 底层 ,到 后 端 关 系 表 。 

此 外 ,OLAP 的 其 他 操作 还 有 统计 表 中 最 高 值 和 最 低 值 的 项 数 ,计算 平均 值 . 增 长 率 、 
利润 .投资 回报 率 等 。 


4.1.5 OLAP 与 OLTP 的 比较 


传统 的 OLTP 只 是 针对 业务 人 员 的 日 常 操作 进行 的 业务 处 理 , 并 不 能 提供 人 们 所 需要 
的 数据 分 析 信息 。OLAP 则 是 一 种 专门 为 特殊 的 数据 存 取 和 分 析 而 设计 的 技术 。 信 息 是 
现代 企业 生存 的 根本 ,而 决策 数据 是 多 维 数据 ,根据 这 个 特点 需要 一 种 能 迅速 地 一致 地 、 交 
互 地 从 各 个 方面 观察 信息 ,以 达到 深入 理解 数据 的 工具 ,OLAP 正 满足 了 这 种 需求 。 数 据 
仓库 中 数据 的 组 织 方式 也 为 进行 灵活 多 样 的 查询 提供 了 可 能 ,但 其 本 身 并 不 能 完成 这 种 复 
杂 的 数据 查询 分 析 , 需 借助 OLAP 工具 。 

OLAP 作为 一 种 商业 信息 的 分 析 工 具 是 在 OLTP 不 能 满足 目前 这 种 具有 智能 型 分 析 
的 功能 下 产生 的 。 而 OLTP 是 为 了 替代 手工 劳作 而 产生 的 ,与 业务 流程 非常 相近 ,是 业务 
流程 的 计算 机 描述 , 它 能 处 理 同时 输入 的 大 量 实时 事务 ,快速 响应 细节 数据 的 插入 删除 和 
更 新 等 操作 。OLTP 给 日 常事 务 处 理 带 来 了 很 大 的 方便 ,促进 了 业务 的 发 展 ,然而 随 着 业务 
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数据 的 不 断 增 多 ,人 们 和 希望 从 业务 记录 中 查询 到 自己 感 兴趣 的 信息 越 来 越 困 难 ,一 种 新 的 可 
快速 响应 的 分 析 展 现 工 具 OLAP 呼之欲出 。 

总 之 ,OLAP 与 OLTP 是 两 种 不 同类 型 的 应 用 ,二 者 之 间 的 差异 是 多 方面 的 。OLAP 
数据 的 最 终 来 源 虽 然 与 OLTP 相同 ,依然 是 存储 业务 数据 的 DBMS, 但 其 主要 的 应 用 基础 
是 数据 仓库 ;此 外 ,二 者 的 用 户 不 同 , 使 用 的 目的 不 同 , 因 而 二 者 数据 内 容 的 特点 也 不 相同 ， 
OLTP 与 OLAP 的 主要 区 别 见 表 4-2。 


表 4-2 OLTP 与 OLAP 


OLTP OLAP 
数据 库 数据 数据 库 或 数据 仓库 数据 
细节 性 数据 综合 性 数据 
当前 数据 历史 数据 
经 常 更 新 不 更 新 ,但 周期 性 刷新 
一 次 性 处 理 的 数据 量 小 一 次 性 处 理 的 数据 量 大 
对 响应 时 间 要 求 高 响应 时 间 相 合理 
用 户 数 量 大 用 户 数 据 相 对 较 少 
面向 操作 人 员 ,支持 日 常 操作 面向 决策 人 员 ,支持 管理 需要 
面向 应 用 、 事 务 驱 动 面向 分 析 、 分 析 驱 动 
E-R 模型 多 维 数据 模型 
用 SQL 命令 追加 、 删 除 修改、 简单 查询 等 切片 , 切 块 .旋转 等 分 析 处 理 
加 速 对 业务 数据 的 处 理 、 支 持 企业 的 业务 运作 对 现 有 数据 分 析 处 理 , 获 得 信息 、 支 持 决策 


4.2 多 维 数据 库 及 其 存储 


4.2.1 多 维 数据 库 


多 维 数据 库 可 以 在 OLAP 系统 中 直观 地 表达 出 现实 世界 中 的 多 对 多 关系 。 例 如 ,要 在 
系统 中 存放 两 个 产品 (电器 ,服装 ) 和 不 同 地 区 (江苏 、 上 海 .北京 ) 的 销售 情况 ,用 关系 数据 库 
来 存储 这 些 数据 (如 表 4-3 所 示 ) 和 用 多 维 数据 库 来 存储 这 些 数据 (如 表 4-4 所 示 ) 所 得 到 结 
果 是 不 同 的 。 由 于 关系 数据 库 采 用 关系 表达 式 来 表达 某 种 产品 在 某 一 地 区 的 销售 情况 ,而 
多 维 数据 库 则 采用 二 维 表格 的 方式 来 表达 这 些 数 据 的 关系 ,这 就 使 二 维 表格 比 关系 表达 式 
所 表达 的 关系 更 加 清晰 明了 ,而 且 所 消耗 的 存储 容量 更 少 。 


表 4-3 关系 数据 库存 储 数据 的 方式 


产品 名 称 销售 地 区 销售 数量 
电器 江苏 940 
电器 上 海 450 
电器 北京 340 
服装 江苏 830 
服装 上 海 350 


服装 北京 270 


表 4-4 多 维 数据 库存 储 数据 的 方式 


江苏 上 海 北京 
电器 940 450 340 
服装 830 350 270 


在 关系 数据 库 中 对 这 些 数据 进行 单项 查询 时 ,比较 容易 处 理 。 例 如 ,要 查询 上 海地 区 所 
销售 电器 的 数量 只 需要 进行 一 个 简单 的 检索 就 可 以 了 。 但 是 如 果 查 询 电 器 的 销售 总 量 , 那 
就 比较 麻烦 了 ,需要 对 关系 数据 库 的 所 有 记录 进行 查询 ,并 且 对 销售 数量 进行 汇总 ,此 时 系 
统 的 效率 必然 会 降低 ,而 多 维 数据 库 则 只 需要 对 库 按 行 或 列 进 行 统计 即 可 。 其 性 能 要 远 优 
于 关系 数据 库 。 

在 OLAP 中 ,为 了 给 用 户 提供 一 致 的 系统 查询 时 间 ,常常 将 查询 经 常 要 用 到 的 综合 数 
据 预 先 统计 汇总 ,存储 在 数据 库 中 ,以 加 快 查询 的 响应 时 间 。 为 了 达到 这 个 目的 ,在 关系 数 
据 库 中 就 需要 增加 一 行 汇 总 数据 ,如 表 4-5 所 示 。 由 于 关系 数据 库 将 需要 进行 汇总 的 数据 
均 在 事先 完成 了 汇总 工作 ,在 进行 查询 时 就 不 必 再 进行 求 和 汇总 了 ,只 要 从 表 中 读 取 单 个 记 
录 , 就 可 以 完成 求 和 查询 。 这 样 的 数据 处 理 很 显然 可 以 获取 快速 的 响应 时 间 。 但 是 在 数据 
仓库 中 ,如 果 历 史 数 据 庞大 ,这 种 事先 的 求 和 汇总 也 需要 较 长 的 计算 时 间 。 更 加 糟糕 的 是 ， 
在 产品 列 和 销售 地 区 列 中 出 现 的 “汇总 ?数据 项 完全 破坏 了 列 的 定义 。 用 户 在 查询 过 程 中 必 
须 了 解 这 种 例外 情况 的 出 现 。 

表 4-5 具有 汇总 数据 项 的 关系 数据 库 


产品 名 称 销售 地 区 销售 数量 
电器 江苏 940 
电器 上 海 450 
电器 北京 340 
电器 汇总 1730 
服装 江苏 830 
服装 上 海 350 
服装 北京 270 
服装 汇总 1450 
汇总 江苏 1770 
汇总 上 海 800 
汇总 北京 610 
汇总 汇总 3180 


多 维 数据 库 MDDB 在 OLAP 系统 中 的 优势 表现 在 查询 速度 和 结构 清晰 明了 上 。 在 
MDDB 中 ,数据 可 以 按照 行 或 列 进行 累加 。 在 MDDB 中 没有 重复 出 现 的 信息 ,因此 其 统计 
速度 要 远 远 高 于 关系 型 数据 库 。 如 果 将 汇总 等 数据 也 存储 在 数据 库 中 ,只 要 在 原 数 据 库 中 
增加 一 行 、 一 列 就 可 以 了 ,如 表 4-6 所 示 ,实现 较为 简单 。 


总 


表 4-6 具有 汇总 值 的 多 维 数据 库存 储 方式 


产品 名 称 江苏 上 海 北京 汇总 
电器 940 450 340 1730 
服装 830 350 270 1450 
汇总 1770 800 610 3180 


4.2.2 多 维 数据 库 的 数据 存储 


在 多 维 数据 库 中 ,二 维 数据 很 容易 理解 ,但 是 当 维 数 扩展 到 三 维 或 更 高 的 维度 时 ,多 维 
数据 库 MDDB 就 成 了 一 种 * 超 立方 ”的 结构 ,对 其 理解 就 产生 了 困难 。 但 是 ,在 MDDB 中 ， 
其 数据 的 存储 是 由 许多 类 似 于 数组 的 对 象 来 完成 的 。 在 这 些 对 象 中 包含 了 经 过 高 度 压 缩 的 
索引 和 指针 ,利用 这 些 索 引 和 指针 将 许多 存储 数据 的 单元 块 联接 在 一 起 。 每 个 单元 块 都 按 
照 多 维 数组 的 方式 存储 ,相互 之 间 通 过 直接 偏 移 计算 进行 存 取 。 在 索引 中 只 用 了 一 个 较 小 
的 数 来 标识 单元 块 ,因此 多 维 数据 库 的 索引 比较 小 ,只 占用 数据 空间 的 一 小 部 分 ,可 以 全 部 
存放 在 内 存 中 。 但 是 在 多 维 的 实际 分 析 中 ,可 能 需要 将 任 一 维 与 其 他 维 进 行 组 合 ,因此 需要 
能 够 “旋转 ?数据 立方 体 已 经 切片 的 视图 , 即 用 多 维 方式 显示 数据 。 

在 MDDB 中 ,并 非 维 之 间 的 任何 组 合 都 会 产生 实际 的 值 , 在 实际 组 合 中 往往 由 于 各 种 
原因 会 导致 某 些 组 合 没有 具体 的 值 ,或 值 是 空 的 或 者 值 为 零 。 例 如 ,在 表 4-6 中 ,如 果 该 公 
司 在 北京 地 区 没有 进行 电器 的 销售 活动 ,那么 在 电器 行 和 北京 列 所 交叉 的 单元 格 的 值 就 是 
0 ,而 不 是 340。 这 就 产生 了 多 维 数据 库 的 稀 玻 矩阵 问题 , 稀 朴 矩阵 使 数据 库 中 产生 大 量 的 
无 数据 空间 ,导致 存储 空间 的 浪费 。 为 此 ,多 维 数据 库 常常 需要 采用 压缩 技术 来 解决 空间 浪 
费 问题 。 


4.2.3 多 维 数据 库 与 数据 仓库 


多 维 数据 库 为 终端 用 户 提供 了 一 种 可 以 对 数据 进行 灵活 访问 的 信息 结构 ,利用 多 维 数 
据 库 可 以 对 数据 进行 切片 . 切 块 ,动态 地 观察 汇总 数据 与 细节 数据 的 关系 。 而 数据 仓库 中 的 
细节 数据 则 为 多 维 数据 库 提供 了 非常 健全 和 便捷 的 数据 源 ,由 于 OLAP 的 应 用 ,需要 多 维 
数据 库 定期 刷新 。 因 此 ,数据 要 定期 地 从 数据 仓库 中 导入 到 多 维 数据 库 中 。 业 务 处 理 系 统 
中 的 数据 在 导入 到 数据 仓库 中 时 ,就 被 集成 了 。 因 此 ,多 维 数据 库 就 不 必 再 从 业务 处 理 系 统 
中 抽取 与 集成 数据 。 而 且 基 于 多 维 OLAP 的 用 户 , 如 果 对 细节 数据 的 分 析 感 兴趣 ,还 可 以 
通过 数据 仓库 所 保留 的 细节 数据 进行 分 析 。 

在 实际 的 应 用 中 ,数据 仓库 与 多 维 数据 库 是 有 差别 的 。 首 先 ,从 所 存储 的 数据 量 看 , 数 
据 仓 库存 储 了 大 量 的 数据 ,而 多 维 数据 库 只 存储 了 某 些 类 型 用 户 所 需要 的 集成 数据 ,在 数据 
量 上 要 远 低 于 数据 仓库 ;其 次 ,数据 仓库 只 允许 少量 的 分 析 人 员 进 行 少量 的 灵活 访问 ,而 多 
维 数据 库 却 允许 众多 的 用 户 进 行 大 量 的 非 预知 的 数据 访问 和 分 析 ; 最 后 ,从 数据 存储 的 时 间 
范围 看 ,数据 仓库 所 存储 的 数据 可 能 长 达 5 一 10 年 ,而 多 维 数据 库 中 的 数据 则 只 保存 大 约 1 
年 的 时 间 。 

多 维 数据 库 实际 上 是 与 OLAP 的 应 用 共存 的 ,两 者 构成 了 基于 多 维 的 OLAP。 但 是 
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OLAP 仅 是 一 种 技术 ,而 数据 仓库 是 一 个 体系 结构 的 基础 ,两 者 是 一 种 互补 和 共生 的 关系 。 
在 OLAP 的 实际 应 用 中 ,有 不 少 人 希望 直接 从 业务 处 理 系统 中 抽取 数据 (在 OLAP 应 用 系 
统 设计 中 去 掉 数据 仓库 部 分 ,将 OLAP 服务 器 直接 与 业务 处 理 系统 联接 )。 这 样 ,在 OLAP 
的 应 用 中 系统 设计 就 十 分 简便 ,这 种 体系 的 设计 直截了当 ,容易 实现 。 但 是 这 种 OLAP 的 
体系 结构 在 实际 应 用 中 有 以 下 一 些 很 严重 的 问题 : 

(1) 增加 数据 抽取 部 分 的 工作 量 。 在 OLAP 的 应 用 中 对 数据 所 进行 的 抽取 的 工作 量 是 
很 大 的 ,而 且 由 于 不 同 部 门 业务 的 差别 ,每 个 部 门 都 需要 开发 一 套 适合 本 部 门 多 维 数据 库 的 
抽取 、 清 理 和 转换 的 程序 。 这 务必 会 造成 这 些 数 据 抽取 程序 的 大 量 重复 ,使 开发 量 增加 许 
多 。 而 用 数据 仓库 结构 则 只 需要 一 套数 据 抽取 、 清 理 和 转换 程序 就 可 以 了 。 

(2) 缺乏 统一 的 数据 源 和 结论 。 如 果 多 维 数据 库 从 传统 业务 处 理 系统 中 抽取 数据 时 ， 
没有 一 个 统一 的 数据 集成 环境 ,每 个 部 门 的 多 维 数据 库 按照 本 部 门 的 数据 集成 方法 进行 数 
据 抽 取 , 其 后 果 是 不 能 形成 一 个 统一 的 集成 的 数据 源 ,而 这 在 数据 仓库 中 是 很 容易 做 到 的 。 
所 带 来 的 后 果 是 在 企业 的 重大 问题 决策 时 ,由 于 数据 源 的 不 统一 ,各 部 门 依据 本 部 门 多 维 数 
据 库 所 进行 的 OLAP 处 理 结果 将 有 很 大 的 差异 ,使 决策 问题 很 难 有 一 个 正确 的 判断 。 

(3) 加 大 系统 的 维护 工作 量 。OLAP 系统 开发 成 功 以 后 ,需要 经 常 对 其 进行 维护 ,才能 
延长 OLAP 的 生存 期 。 而 业务 处 理 系统 的 任何 变化 ,必然 要 影响 到 OLAP 中 的 数据 抽取 程 
序 部 分 ,这 种 改变 将 涉及 所 有 部 门 的 OLAP 系统 。 但 是 在 数据 仓库 中 只 需要 进行 很 少 的 变 
动 , 就 可 以 应 付 业 务 处 理 系统 的 变化 所 带 来 的 麻烦 ,大 大 减少 了 OLAP 在 实际 应 用 中 的 工 
作 量 。 

(4) 缺乏 对 元 数据 的 有 效 管理 。 在 基于 数据 仓库 的 OLAP 体系 中 ,可 以 对 元 数据 进行 
有 效 的 管理 。 而 在 直接 从 业务 系统 中 抽取 数据 的 OLAP 系统 中 ,由 于 将 数据 导入 到 多 维 数 
据 库 的 复杂 性 ,使 元 数据 的 管理 和 控制 遭 到 破坏 。 

(5) 加 大 OLAP 系统 的 开发 投入 。 由 于 在 各 个 部 门 的 OLAP 应 用 中 都 需要 对 业务 处 
理 系统 进行 数据 吸取 ,导致 大 量 的 、 重 复 的 数据 传输 。 在 数据 仓库 构架 的 OLAP 系统 中 ,这 
种 数据 的 传输 工作 则 只 需 定 期 地 进行 就 可 以 了 ,大 大 降低 了 对 硬件 系统 的 投入 要 求 。 


4.3 ”OLAP 的 类 型 


OLAP 能 够 有 效 的 帮助 数据 分 析 人 员 ,管理 人 员 决策 人 员 深 刻 理解 数据 背后 的 信息 ， 
掌握 隐 于 其 中 的 规律 。OLAP 处 理 数据 仓库 中 庞杂 的 数据 ,并 将 之 转化 为 有 用 的 信息 ,最 
终 达 到 对 数据 的 归纳 、 分 析 和 处 理 , 以 实现 帮助 企业 完成 决策 的 目的 。OLAP 支持 最 终 用 
户 进行 动态 多 维 分 析 , 其 中 包括 跨 维 、 在 不 同 层次 之 间 跨 成 员 计 算 和 建 模 ;预测 分 析 切 片 和 
切 块 , 并 在 屏幕 上 显示 ;无 论 从 宏观 到 微观 ,都 支持 对 数据 进行 深入 分 析 ; 支 持 在 观察 区 域 中 
上 卷 .下 钻 、 旋 转 等 各 种 操作 ,还 能 进行 不 同 维 间 的 比较 等 。 数 据 仓 库 与 OLAP 是 互相 促进 
共同 发 展 的 ,现代 OLAP 系统 一 般 以 数据 仓库 作为 基础 ,从 数据 仓库 中 抽取 部 分 详细 数据 ， 
然后 经 过 必要 的 聚集 存储 到 OLAP 存储 器 中 供 前 端 分 析 工 具 读 取 。 

OLAP 系统 按照 其 存储 器 的 数据 存储 格式 可 以 分 为 关系 OLAP(Relational OLAP) .多 
维 OLAP(Moultidimensional OLAP) 和 混合 型 OLAP(Hybrid OLAP) 三 种 类 型 。ROLAP 
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基本 数据 和 聚合 数据 存放 在 关系 数据 库 管理 系统 之 中 ; MOLAP 基本 数据 和 聚合 数据 均 存 
放 于 多 维 数据 库 中 ;HOLAP 综合 ROLAP 和 MOLAP 的 特点 ,基本 数据 存放 于 关系 数据 库 
管理 系统 之 中 ,而 聚合 数据 则 存放 于 多 维 数据 库 中 。 


4.3.1 多 维 OLAP 
1. MOLAP 的 结构 


多 维 联机 分 析 处 理 (Multi-dimensional OLAP,MOLAP) 是 指 将 数据 存储 在 多 维 数组 的 
单元 中 ,MOLAP 的 物理 存储 方式 和 其 逻辑 组 织 是 十 分 相似 的 ,MOLAP 利用 一 个 专 有 的 多 
维 数据 库 来 存储 OLAP 分 析 所 需 的 数据 ,数据 以 多 维 方式 存储 ,并 以 多 维 视图 方式 显示 。 
在 MOLAP 的 结构 中 ,分 散在 企业 内 部 各 数据 库 中 的 数据 经 过 ETL 等 步骤 后 提交 给 多 维 
数据 库 。 这 些 数据 在 被 导入 多 维 数据 库 时 ,根据 它们 所 属于 的 维度 进行 一 系列 的 预 处 理 操 
作 ,并 把 结果 按照 一 定 的 层次 结构 存 人 多 维 数据 库 中 。 应 用 过 程 中 ,用 户 在 客户 端的 应 用 软 
件 的 界面 上 提交 分 析 需 求 给 OLAP 服务 器 ,然后 由 OLAP 服务 器 检索 MDDB 数据 库 得 到 
结果 ,最 后 返回 给 用 户 。MOLAP 的 结构 图 如 图 4.4 所 示 。 


数据 库 服务 器 MOLAP 服务 器 前 端 工具 


SQL 信息 请 求 
En 日 | 龟 中 
口 

图 DBMS OY 


元 数据 RE 
请 求 处 理 | | 地 


返 加 
结果 集 


图 4.4 MOLAP 结构 图 


2. MOLAP 的 优 缺 点 


MOLAP 结构 的 主要 优点 是 它 能 迅速 的 响应 决策 分 析 人 员 的 分 析 请 求 , 并 能 将 结果 迅 
速 的 返回 给 用 户 端 。 这 得 益 于 它 独特 的 多 维 数据 库 结 构 以 及 存储 器 中 预 处 理 程度 很 高 的 数 
据 ( 一 般 处 理 度 在 85% 以 上 )。 在 MOLAP 结构 中 ,OLAP 服务 器 主要 是 通过 已 预 处 理 的 数 
据 完 成 分 析 操 作 。 而 这 些 预 处 理 是 预先 定义 好 的 ,这 就 限制 了 MOLAP 结构 的 灵活 性 , 主 
要 表现 在 以 下 几 个 方面 : 

(1) 用 户 很 难 对 维 数 进行 动态 变化 ,每 增加 一 个 维 都 会 使 多 维 数据 库 的 规模 急剧 增加 ， 
所 需要 的 预 处 理 时 间 也 会 大 大 增加 。 

(2) 对 数据 变化 的 适应 能 力 较 差 , 当 数据 或 计算 频繁 变化 时 ,其 重复 计算 量 相 当 大 ,有 
时 还 需要 重新 构造 多 维 数据 库 。 

(3) 处 理 大 量 细节 数据 的 能 力 差 , 预 处 理 的 能 力 决定 数据 仓库 的 大 小 (因为 预 处 理 的 结 
果 也 要 存 人 数据 仓库 ) ,由 于 MOLAP 的 预 处 理 能 力 很 强 , 这 就 限制 了 它 处 理 大 量 细节 数据 
的 能 力 。 

(4) 安全 性 差 , 由 于 数据 需 下 载 到 特定 的 多 维 数据 库 中 ,因此 安全 性 相对 较 差 。 
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3. MOLAP 的 创建 


MOLAP 的 创建 需要 经 历 这 样 几 个 阶段 : 选择 功能 、 确 定 分 析 数 值 、 构 造 分 析 维 、 定 义 
逻辑 模型 。 

(1) 选择 功能 。 在 筹建 MOLAP 时 首先 要 选择 分 析 的 功能 是 什么 。 是 进行 销售 收入 分 
析 , 还 是 进行 客户 状况 分 析 。 

(2) 确定 分 析 数 值 。 在 选择 了 分 析 功 能 以 后 ,需要 确定 为 实现 这 些 分 析 功 能 应 该 分 析 
哪些 数值 。 是 销售 收入 数据 ,还 是 库存 数据 ,还 是 客户 数据 。 

(3) 构造 分 析 维 。 确 定 分 析 数 值 以 后 ,就 需要 构造 分 析 维 , 即 确定 从 哪些 角度 来 分 析 这 
些 分 析 数 值 ,分 析 维 一 般 是 产品 .时 间 、 地 点 等 。 在 维 确定 了 以 后 ,还 需要 根据 分 析 确 定 维 的 
粒度 ,即时 间 是 按 年 还 是 按 季度 进行 分 析 , 地 区 是 按 省 还 是 按 县 进行 分 析 。 

(4) 定义 逻辑 模型 。 在 确定 了 MOLAP 的 分 析 对 象 ,分析 角度 及 分 析 详 上 略 程度 后 ,就 可 
以 定义 MOLAP 的 逻辑 模型 和 多 维 数据 存储 的 方式 了 。 


4. MOLAP 的 功能 


MOLAP 在 实际 应 用 中 需要 为 客户 提供 查询 的 快速 响应 能 力 、 与 多 维 数据 库 进行 交互 
的 能 力 \ 挖 掘 信息 间 的 内 在 联系 、 各 种 模型 .数据 导航 能 力 。 

(1) 快速 响应 能 力 。MOLAP 的 快速 响应 能 力 可 以 为 用 户 提 供 良好 的 联机 分 析 环 境 ， 
使 用 户 能 够 连续 地 进行 联机 分 析 , 不 至 于 过 长 时 间 的 等 待 而 打 断 问题 分 析 的 思路 。 

(2) 与 多 维 数据 库 进行 交互 的 能 力 。 可 以 使 用 户 与 数据 仓库 间 进 行 交互 从 而 完成 分 析 
决策 中 的 预测 ,计划 、 预 算 等 应 用 。 

(3) 挖掘 信息 间 的 内 在 联系 。MOLAP 可 以 利用 强大 的 计算 引擎 和 比较 分 析 ( 例 如 分 
级 .比较 .分 类 .最 大 值 . 最 小 值 . 平 均值 .交叉 维 运算 ,电子 表格 的 行 计 算 等 功能 ) 分 析 数 据 仓 
库 中 各 种 信息 之 间 的 微妙 关系 , 找 出 企业 的 运营 模式 。 

(4) 各 种 模型 。MOLAP 为 满足 用 户 决 策 分 析 的 需要 ,应 该 提供 各 种 管理 决策 模型 , 例 
如 财务 与 管理 模型 .统计 分 析 模 型 .未 来 趋势 分 析 、 时 间 序 列 分 析 、 内 部 回报 率 等 。 

(5) 数据 导航 能 力 。MOLAP 为 引导 用 户 进行 决策 分 析 , 需 要 提供 沿 着 维 处 理 的 基点 、 
表格 、 细 剖 与 概括 的 数据 导航 能 力 。 

目前 MOLAP 产品 尚 在 发 展 中 ,还 没有 多 维 查 询 语言 的 标准 ,同时 多 维 数据 库 也 没有 
类 似 关系 数据 库 中 规范 化 的 科学 理论 基础 。 


4.3.2 关系 OLAP 
1. ROLAP 的 结构 


ROLAP 采用 传统 的 关系 数据 库 , 基 于 星 型 模式 或 雪花 模式 来 存储 多 维 数据 ,然后 通过 

多 表 连 接 , 分 组 聚集 计算 等 操作 来 实现 OLAP 操作 。 在 关系 数据 库 中 ,没有 数组 的 概念 ,多 

维 数据 必须 被 映像 成 平面 型 的 关系 表 中 的 行 。 这 个 过 程 必须 通过 一 个 能 够 平衡 性 能 .具有 

存 取 效 率 和 可 维护 性 的 方案 来 完成 。 具 有 代表 性 的 是 非 标准 化 的 星 型 模式 的 设计 , 它 将 基 
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本 信息 存储 在 一 个 单独 的 事实 表 中 ,而 有 关 维 的 支持 信息 则 被 存储 在 其 他 维 表 中 。 事 实 表 
和 维 表 间 用 码 键 关联 。 它 们 构成 了 ROLAP 的 基础 ,用 它 可 以 计算 不 同 粒度 的 数据 。 

当 数 据 仓库 的 数据 模型 确定 之 后 ,分 散在 企业 各 个 OLTP 数据 库 中 的 数据 被 载 入 数据 
仓库 ,并 按照 模型 的 要 求 进行 预 处 理 , 用 户 通过 客户 端 工具 提交 多 维 分 析 请 求 给 OLAP 服 
务 器 ,后 者 动态 将 这 些 请 求 转换 成 SQL 语句 执行 ,分 析 的 结果 经 多 维 处 理 转化 为 多 维 视图 
返回 给 用 户 。 图 4. 5 给 出 ROLAP 的 结构 图 。 


数据 库 服务 器 ROLAP 服务 器 前 端 工 具 


SQL 信息 请 求 
mm 
口 口 
[| DBMS 
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全 
元 数据 返回 DD 
请 求 处 理 结果 集 

ROLAP 一 般 是 通过 一 些 工 具 或 中 间 软 件 实现 ,物理 层 采用 关系 数据 库 来 存储 ,因此 又 
称 为 虚拟 OLAP(Virtual OLAP)。 它 将 分 析 用 的 多 维 数据 存储 在 关系 数据 库 中 ,根据 应 用 
的 需要 有 选择 的 定义 一 批 视图 也 存储 在 关系 数据 库 中 ,比如 定义 应 用 频率 比较 高 计算 工作 
量 比 较 大 的 查询 作为 实 视 图 ,而 在 使 用 OLAP 服务 器 的 查询 过 程 中 ,优先 使 用 已 经 预先 计 
算 好 的 实 视 图 来 完成 查询 ,可 以 大 大 提高 查询 效率 。 

ROLAP 是 以 关系 数据 库 为 核心 的 ,以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。 在 
ROLAP 结构 中 , 它 将 多 维 数据 库 的 多 维 结构 划分 为 两 类 表 : 一 类 是 事实 表 , 用 来 存储 数据 
和 维 的 关键 字 ; 另 一 类 是 维 表 , 对 每 个 维 至 少 使 用 一 个 维 表 来 存放 维 的 层次 成员 类 别 等 维 
的 描述 信息 , 且 两 者 通过 主键 和 外 键 联系 起 来 。 

由 于 采用 了 动态 的 虚拟 立方 体 结构 ,用 户 可 以 动态 定义 统计 或 计算 方式 ,因此 基于 
ROLAP 技术 可 以 迅速 满足 用 户 的 请 求 , 且 灵 活性 强 : 由 于 采用 了 成 熟 的 RDBMS 关系 数据 
库 管 理 系统 技术 ,因此 系统 易 维 护 .安全 性 好 。 但 数据 预 处 理 程度 低 于 MOLAP。 


2. ROLAP 实现 的 三 个 规则 


返回 
结果 集 


图 4.5 ROLAP 结构 图 


ROLAP 的 实现 必须 遵照 三 个 规则 : 支持 OLAP 原则 、 数 据 存 储 在 某 一 个 关系 型 数据 
库 中 ,支持 某 种 形式 的 聚集 导航 。 

(1) 支持 OLAP 原则 

ROLAP 尽管 是 将 数据 存储 在 关系 数据 库 中 ,但 是 它 的 基本 功能 依然 是 在 线 分 析 处 理 。 
因此 ,应 该 和 任何 OLAP 一 样 能 够 支持 数据 的 多 维特 性 ,能 够 对 数据 进行 切片 . 切 块 .旋转 ， 
并 进行 可 视 化 显示 。 

(2) 数据 存储 在 某 一 个 关系 型 数据 库 中 

ROLAP 的 数据 自然 是 应 该 存放 在 关系 型 数据 库 中 的 ,问题 是 这 些 存储 在 关系 数据 库 
中 的 数据 如 果 在 存储 到 数据 库 之 前 ,为 适应 OLAP 的 应 用 需要 ,进行 了 某 种 方式 的 处 理 , 那 
么 其 他 程序 在 应 用 这 个 关系 数据 库 中 的 数据 时 ,应 该 有 某 种 方法 对 处 理 的 数据 进行 反 处 理 ， 
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以 保证 其 他 程序 的 应 用 。 

(3) 支持 某 种 形式 的 聚集 导航 

所 谓 的 聚集 导航 是 一 种 能 够 为 用 户 的 不 同 查询 选择 一 个 最 小 可 用 表 的 软件 ,因为 在 数 
据 仓 库 中 除了 基本 事实 表 以 外 ,还 包含 了 一 些 概 况 表 。 创 建 这 些 概 况 表 的 目的 是 为 用 户 的 
查询 提供 便捷 的 方式 。 假 设 在 某 一 个 数据 仓库 中 包含 了 大 约 8 亿 条 销售 信息 ,这 些 信息 涉 
及 到 客户 .产品 .产品 的 销售 时 间 ( 具 体 的 年 .月 .日 )。 但 是 用 户 在 对 这 些 信息 查询 时 ,只 需 
要 关于 客户 和 产品 销售 年 份 的 数据 。 为 满足 用 户 的 这 种 需要 ,可 以 在 数据 仓库 中 构建 一 个 
概况 表 。 概 况 表 所 包含 的 信息 可 能 只 涉及 到 了 两 百 万 条 记录 ,显然 这 样 处 理 , 大 大 地 提高 了 
数据 仓库 的 工作 效率 。 

虽然 在 概况 表 的 支持 下 ,提高 了 数据 仓库 的 效率 。 但 是 ,用 户 又 怎么 了 解 到 有 这 种 概况 
表 的 存在 ;又 怎么 知道 在 哪些 情况 下 ,应 该 使 用 这 种 概况 表 ; 在 哪些 情况 下 不 需要 使 用 这 些 
概况 表 。 聚 集 导航 器 就 可 以 在 这 方面 为 用 户 的 不 同 查询 提供 寻找 最 小 可 用 概况 表 的 方法 。 
当然 ,聚集 导航 器 对 概况 表 的 了 解 要 么 是 由 数据 仓库 管理 员 通 知 每 一 个 概况 表 的 大 小 、 要 么 
是 由 聚集 导航 器 利用 自身 所 具备 的 例 程 定期 检查 每 一 个 表 的 大 小 。 


3. ROLAP 的 创建 


ROLAP 的 创建 首先 与 MOLAP 一 样 需要 实现 选择 功能 、 确 定 分 析 数 值 .构造 分 析 维 、 
定义 逻辑 模型 ,然后 还 需要 根据 ROLAP 实现 的 准则 完成 数据 添加 数据 管理 .元 数据 存储 、 
应 用 工具 构造 等 操作 。 

(1) 数据 添加 。 在 完成 ROLAP 模型 的 构造 并 且 完 成 数据 仓库 的 创建 后 ,需要 添加 合 
适 的 聚集 数据 和 概括 数据 到 数据 库 中 。 

(2) 数据 管理 。 为 有 效 地 管理 关系 型 数据 库 , 需 要 根据 实际 应 用 的 需要 将 较 大 的 数据 
库 分 解 成 可 管理 的 部 分 ,添加 生成 的 索引 或 位 图 索引 以 提高 ROLAP 的 处 理 效率 。 

(3) 元 数据 存储 。ROLAP 的 应 用 必须 依赖 元 数据 的 生成 与 存储 ,元 数据 主要 有 维 的 定 
义 、 维 到 关系 表格 的 映射 、 维 间 的 层次 关系 、 概 括 和 聚集 数据 的 定义 与 描述 .概括 与 聚集 数据 
的 计算 公式 。 

(4) 应 用 工具 构造 。ROLAP 的 应 用 工具 是 用 户 使 用 OLAP 的 利器 。 需 要 利用 数据 的 
应 用 视图 或 维 视图 构造 客户 工具 ,使 客户 工具 能 够 查询 OLAP 并 实时 检查 元 数据 。 用 户 能 
够 创建 多 种 SELECT 语句 或 有 关 的 子 查询 ,并 迅速 提交 给 关系 数据 库 。 数 据 库 能 够 利用 查 
询 结果 进 行 多 维 操作 , 并 能 够 实现 计算 、 公 式 、 数 据 到 应 用 描述 的 转换 ,将 结果 返回 给 客户 工 
具 , 进 一 步 处 理 后 显示 给 用 户 。 


4. ROLAP 的 功能 


ROLAP 要 能 够 支持 决策 分 析 , 就 需要 提供 基于 关系 数据 的 商业 视图 、 维 层次 支持 、 模 
型 的 自 定 义 、 细 前 细节 层次 .数据 的 备份 恢复 和 安全 功能 .元 数据 导航 `OLAP 服务 器 性 能 
的 协调 等 功能 。 

(1) 基于 关系 数据 的 商业 视图 。 通 过 为 用 户 提供 基于 关系 数据 的 商业 视图 ,才能 使 用 
户 实现 决策 分 析 。 商 业 视 图 的 设计 一 般 基于 维 模型 ,要 求 ROLAP 能 够 将 星 型 模型 .雪花 模 

。 93 。 


型 和 混合 模型 转化 为 商业 视图 。 

(2) 维 层次 支持 。ROLAP 需要 能 够 提供 维 层次 操作 的 支持 ,能 够 实现 维 层次 与 关系 数 
据 存储 的 转化 与 管理 。 

(3) 模型 的 自 定义 。ROLAP 允许 用 户 对 分 析 模 型 进行 自 定 义 , 根 据 决 策 分 析 的 需要 选 
择 不 同 的 计算 、 统 计 和 各 种 分 析 模 型 。 

(4) 细 齐 细节 层次 。 人 允许 用 户 在 ROLAP 上 进行 数据 聚集 .概括 分 级 .分 解 和 细 剂 细节 
数据 ,并 提供 数据 库 的 子 集 进 行 个 别 分 析 。 

(5) 数据 的 备份 恢复 和 安全 功能 。 用 户 可 以 用 已 经 存在 的 标准 进行 数据 的 备份 .恢复 
和 安全 性 管理 ,并 且 可 以 由 数据 库 管理 员 增 强 已 有 的 备份 和 恢复 功能 ,同时 具有 使 用 权限 的 
多 级 安全 性 控制 。 

(6) 元 数据 导航 。 在 全 局 数据 仓库 范围 内 管理 .协调 和 维护 所 有 新 生 的 元 数据 ,对 所 有 
元 数据 进行 合适 的 导航 处 理 。 

(7) OLAP 服务 器 性 能 的 协调 。OLAP 服务 器 可 以 进行 非 初始 化 装载 或 阶段 性 修改 ， 
用 来 进行 性 能 的 协调 ,协调 数据 仓库 的 规模 .大 小 .操作 速度 ,并 可 以 由 用 户 选择 前 后 端 
工具 。 


5. ROLAP 的 多 维 表示 方法 


(1) 星 型 模式 在 关系 数据 库 中 的 表示 

多 维 数据 库 在 关系 数据 库 中 表示 时 ,需要 分 成 两 大 类 型 : 一 类 是 用 于 存储 事实 度量 值 
与 各 个 维 主键 的 事实 表 ; 另 一 类 是 维 表 , 在 维 表 中 至 少 要 保存 描述 该 维 的 层次 关系 、 成 员 的 
类 别 等 元 数据 。 在 最 简单 的 情况 下 ,只 用 一 行列 出 维 表 的 所 有 合法 值 。 利 用 维 表 可 以 在 事 
实 表 中 衍生 出 维 的 列 。 

事实 表 通 过 每 一 个 维 的 主键 值 与 维 表 联 系 在 一 起 ,这 样 就 构成 了 如 图 4.6 所 示 的 “ 星 型 
模式 ”。 在 图 中 心 的 销售 情况 表 是 一 个 事实 表 , 在 表 中 存储 了 产品 ID、 销 售 商 ID、 地 址 ID、 
时 间 ID 四 个 维 表 的 主键 。 通 过 这 四 个 主键 将 四 个 维 表 与 事实 表 联系 在 一 起 ,构成 了 “ 星 型 
模式 ”。 也 就 是 说 ,应 用 二 维 关系 表 实 现 了 多 维 数据 模式 。 构 成 这 种 星 型 模式 后 ,就 可 以 在 


时 间 
维 表 
时 间 ID 


图 4.6 星 型 模式 的 关系 数据 库 表 示 
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关系 数据 库 中 模拟 OLAP 中 的 多 维 查询 ,并 通过 维 表 的 主键 ,对 事实 表 和 维 表 进 行 连接 操 
作 。 在 一 次 查询 操作 中 ,可 以 获得 查询 对 象 的 事实 值 以 及 对 数据 的 多 维 描述 (对 应 维 上 的 维 
成 员 )。 在 这 种 ROLAP 模式 中 ,用 户 和 分 析 人 员 可 以 应 用 存储 在 维 表 中 的 用 户 习 惯 描述 
(元 数据 ) 来 说 明 一 个 查询 需求 ,而 这 种 需求 可 以 被 ROLAP 依靠 维 表 转 换 成 维 的 代码 或 值 ， 
完成 用 户 的 最 终 需 求 请 求 。 

(2) 雪花 模式 在 关系 数据 库 中 的 表示 

由 于 在 管理 决策 中 ,管理 人 员 了 解 所 决策 的 对 象 时 ,常常 要 多 角度 .多 层次 地 观察 决策 
对 象 ,也 就 是 说 在 OLAP 中 需要 多 层次 观察 维度 。 由 于 使 用 OLAP 的 现实 ,常常 有 包含 维 
层次 和 维 类 别 的 复杂 要 求 。 对 这 种 复杂 的 维 关系 ,如 果 仅 用 一 个 维 表 来 描述 ,必然 会 产生 大 
量 的 宛 余 数据 。 为 解决 由 于 数据 的 宛 余 而 造成 的 存储 空间 浪费 ,可 以 用 多 张 维 表 来 描述 复 
杂 的 维 关系 。 例 如 ,在 产品 维 上 划分 产地 类 销售 地 类 ,用 途 类 产品 类 等 若干 类 ,这 样 在 星 
型 模式 的 角 上 就 出 现 了 分 支 , 也 就 是 说 星 型 模式 变 成 了 “雪花 模式 ”。 在 图 4.7 中 所 示 的 “ 雪 
花 模式 ?就 是 在 图 4. 6 的 星 型 模式 上 的 产品 维度 上 演变 而 来 的 。 


产品 ID 公司 ID 产品 颜色 ID 产品 商标 ID 产品 类 别 ID 
产品 名 称 公司 名 称 品 颜色 商标 名 称 产品 类 别名 


产品 维 表 


时 间 ID 


地 理 位 
置 维 表 


图 4.7 雪花 模式 的 关系 数据 库 表 示 


因此 在 ROLAP 的 实现 中 ,常常 需要 根据 维 表 的 复杂 程度 选用 合适 的 模式 。 对 一 些 维 
层次 复杂 、 成 员 类 型 多 的 可 以 采用 多 张 表 来 描述 ,而 对 一 些 简 单 的 维 可 以 用 一 张 表 来 描述 。 
由 于 ROLAP 中 的 事实 表 和 维 表 都 在 使 用 二 维 关系 表 来 存放 ,这 样 在 多 维 数据 集 的 构造 中 ， 
必须 通过 维 表 和 事实 表 的 联接 来 实现 。 如 果 在 ROLAP 中 每 个 维 都 需要 通过 一 次 联接 操 
作 ,那么 就 会 给 ROLAP 带 来 一 个 严重 的 性 能 问题 。 特 别 是 在 维 数 增加 、 事 实 表 加 大 时 ， 
ROLAP 的 处 理 时 间 将 使 用 户 无 法 容忍 。 因 此 在 ROLAP 产品 中 ,常常 采用 各 种 索引 技术 
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来 提高 系统 的 性 能 。 
4.3.3 混合 型 OLAP 


混合 型 联机 分 析 处 理 (Hybrid OLAP,HOLAP) 取 MOLAP 和 ROLAP 两 者 的 优点 , 即 
利用 MOLAP 的 快速 响应 特点 在 MOLAP 中 保存 聚集 的 数据 以 加 快 访问 分 析 处 理 , 而 利用 
ROLAP 数据 存储 容量 不 受 限 制 的 优点 在 其 中 保存 详细 的 数据 。 另 外 , 当 分 析 处 理 到 
MOLAP 中 没有 的 统计 数据 时 ,系统 自动 透明 地 将 多 维 查询 分 析 处 理 的 语句 转变 为 SQL 查 
询 语句 并 且 发 到 关系 数据 库 , 由 关系 数据 库 进行 查询 并 将 结果 返回 用 户 , 其 体系 结构 如 
图 4.8 所 示 。 


4 


OLAP 
数据 仓库 


即席 查询 
转化 为 SQL 语 句 


详细 查询 


图 4.8 HOLAP 体系 结构 


HOLAP 的 优点 : 

。 性 能 上 尽管 没有 MOLAP 快 ,但 还 是 较 优 化 的 ; 

。 对 于 用 户 的 访问 分 析 处 理 同样 能 非常 快速 地 进行 响应 ; 
。 利用 关系 数据 库存 储 细节 数据 ,所 以 没有 容量 上 的 限制 。 
HOLAP 的 缺点 : 一 些 数据 的 预 聚 集 程度 需要 用 户 控 制 。 


4.3.4 MOLAP 与 ROLAP 的 比较 


ROLAP 和 MOLAP 两 者 在 功能 上 是 比较 类 似 的 ,但 是 它 的 底层 的 实现 上 差别 很 大 ， 
ROLAP 使 用 的 数据 库 是 关系 型 数据 库 , 而 MOLAP 使 用 的 是 多 维 数据 库 。 关 系数 据 与 关 
系数 据 模式 一 致 ,关系 数据 库 按 关 键 字 来 记录 存放 数据 ,可 用 通用 SQL 语言 来 访问 。 
ROLAP 可 以 利用 原来 就 已 经 成 熟 的 索引 、 存 储 和 查询 技术 。 但 按照 关系 模型 存储 时 ,查询 
过 程 若 不 经 过 特殊 处 理 , 会 涉及 多 表 连 接 和 分 组 聚集 ,都 非常 耗 时 。 多 维 数据 存储 在 逻辑 上 
按 多 维 数 组 方式 保存 数据 , 既 没有 通用 的 或 一 致 的 多 维 模型 ,也 没有 标准 的 或 通用 的 数据 访 
问 方法 ,大 多 数 产品 都 用 各 自 的 访问 方法 和 前 后 端 ,这 给 用 户 使 用 带 来 了 一 定 的 不 便 。 但 是 
由 于 这 种 数组 存储 的 方式 ,查询 速度 较 快 。 多 维 存储 必须 具有 高 效 的 稀 玻 数据 处 理 能 力 ,能 
略 过 零 值 .缺失 的 值 和 重复 数据 ,和 否则 存储 存在 大 量 的 元 余 。 

由 于 MOLAP 和 ROLAP 有 着 各 自 的 优点 和 缺点 ,综合 二 者 的 优点 ,一 个 新 的 OLAP 
结构 混合 型 OLAP(HOLAP) 结 构 被 提出 。HOLAP 结构 将 MOLAP 和 ROLAP 两 种 结构 
技术 优点 有 机 结合 ,扬长 避 短 ,最终 达到 满足 用 户 各 种 复杂 的 分 析 请 求 的 目的 。 表 4-7 列 出 
MOLAP 和 ROLAP 的 优 缺 点 。 
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表 4-7 MOLAP 和 ROLAP 的 优 缺 点 


ROLAP MOLAP 
沿用 现 有 的 关系 数据 库 的 技术 专 为 OLAP 所 设计 

响应 速度 比 MOLAP 慢 ; 目 前 性 能 有 所 提高 性 能 好 、 响 应 速度 快 

数据 装载 速度 快 数据 装载 速度 慢 


需要 进行 预计 算 , 可 能 导致 数据 爆炸 , 维 数 有 


存储 空间 耗费 小 , 维 数 没有 限制 限 , 光 法 支持 竺 的 动态 变化 


借用 RDBMS 存储 数据 ,没有 文件 大 小 限制 受 操作 系统 平台 中 文件 大 小 的 限制 ,难以 达到 
午 8 :大 小 


TB 级 
可 以 通过 SQL 实现 详细 数据 与 概要 数据 的 存储 缺乏 数据 模型 和 数据 访问 的 标准 
不 支持 有 关 预 计算 的 读 写 操作 ;SQL 无 法 完成 部 分 计 | 支持 高 性 能 的 决策 支持 计算 ;复杂 的 跨 维 计 
算 ; 无 法 完成 多 行 的 计算 ;无 法 完成 维 之 间 的 计算 算 ; 多 用 户 的 读 写 操作 规程 ; 行 级 的 计算 
维护 困难 管理 简便 


目前 大 多 数 对 OLAP 的 应 用 仍然 是 建立 在 传统 的 关系 数据 库 系 统 上 ,人 们 也 在 不 断 地 
对 它 进行 改进 ,使 其 能 利用 原来 的 数据 库 系统 完成 人 们 期 望 的 复杂 的 查询 任务 。 


4.4 OLAP 的 体系 结构 
OLAP 是 建立 在 客户 机 /服务 器 (Client/Server,C/S) 结 构 之 上 的 。 由 于 它 要 对 来 自 基 


层 的 操作 数据 进行 多 维 表 示 或 预 处 理 ,因此 它 不 同 于 传统 OLTP 软件 的 两 层 客户 机 /服务 
器 结构 ,而 是 三 层 客户 服务 器 结构 ,如 图 4.9 所 示 。 


OLAP 
服务 器 客户 端 


图 4.9 OLAP 的 三 层 C/S 结构 


OLAP 技术 是 通过 对 数据 仓库 进行 综合 .统计 、 分 析 , 以 专业 报表 查询 结果 的 形式 提 
供给 管理 人 员 的 决策 过 程 ,并 最 终 形成 决策 数据 。OLAP 采用 多 用 户 的 三 层 C/S 结构 , 它 
由 数据 库 .OLAP 服务 器 、OLAP 客户 机 及 客户 端 应 用 程序 构成 。 这 种 结构 的 优点 在 于 将 
应 用 逻辑 .GUI 及 DBMS 严格 地 区 分 开 , 复 杂 的 应 用 逻辑 集中 存放 在 OLAP 服务 器 上 , 系 
统 的 主要 处 理 , 包 括 数据 存 取 、 后 台数 据 处 理 、 报 表 的 预 处 理 等 都 由 OLAP 服务 器 上 的 应 用 
程序 完成 ,而 不 是 由 客户 端 完 成 。OLAP 服务 器 设计 的 重点 在 于 如 何 组 织 数据 仓库 中 的 综 
合 数 据 , 如 何 满足 前 端 用 户 的 查询 要 求 。 

要 实现 这 个 系统 ,必须 要 解决 如 何 组 织 OLAP 所 用 的 数据 , 即 OLAP 服务 器 如 何 设计 ， 
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如 何 从 数据 仓库 或 数据 集 市 中 获取 数据 。 另 外 ,还 要 解决 如 何 与 客户 端的 客户 需求 进行 沟 
通 , 即 如 何 根据 客户 的 需求 对 多 维 数据 集 进行 分 析 , 并 将 分 析 的 结果 以 可 视 化 的 方式 传递 给 
客户 端 。 

OLAP 系统 在 进行 数据 组 织 处 理 时 ,可 以 采用 专门 的 多 维 数据 库 系统 ,或 者 利用 现在 
应 用 比较 普遍 的 关系 数据 库 技 术 来 模拟 多 维 数据 集 ,这 样 在 OLAP 的 实现 中 就 产生 了 基于 
多 维 数据 库 的 OLAP 系统 和 基于 关系 数据 库 的 OLAP 系统 。 系 统 在 具体 实现 时 ,如 果 将 多 
维 数据 集 存 储 于 客户 端 , 就 可 能 产生 * 胖 ?客户 端 系统 。 这 种 系统 由 于 客户 在 进行 在 线 分 析 
处 理 时 ,需要 将 数据 加 载 到 客户 端 ,容易 产生 网 络 “瓶颈 *"。 因 此 ,在 客户 端 较 多 的 情况 下 就 
需要 采用 “ 瘦 ” 客 户 端 结构 来 实现 OLAP 系统 。 

“ 瘦 ” 客 户 端 系统 中 的 多 维 数据 集 不 存储 在 客户 端 ,而 是 存储 在 OLAP 服务 器 中 。 这 样 
在 网 络 中 所 需 传输 的 只 是 经 过 分 析 处 理 以 后 的 结果 ,而 不 是 多 维 数据 集 。 在 多 维 数据 集 存 
储量 很 大 ,用 户 较 多 的 情况 下 还 可 以 在 数据 仓库 与 OLAP 服务 器 之 间 再 增加 一 个 服务 器 和 
存储 设备 ,专门 用 于 多 维 数据 集 的 存储 与 处 理 。 


4.5 ”OLAP 中 的 索引 技术 


数据 仓库 是 以 查询 为 中 心 的 系统 ,为 提供 快速 有 效 的 数据 访问 ,通常 使 用 索引 技术 对 
OLAP 优化 查询 。 


4.5.1 B-Tree 索引 


大 多 数 数据 库 管理 系统 将 B-Tree 索引 技术 作为 默认 的 索引 建立 方法 ,因为 它 的 数据 检 
索 速度 快 ,易于 管理 。 由 于 B-Tree 索引 中 存放 的 是 基于 索引 列 的 取 值 , 即 B-Tree 索引 中 存 
储 的 是 实际 的 字段 值 , 在 数据 检索 过 程 中 ,索引 记录 是 首先 读 和 人 的 ,然后 再 读 人 对 应 的 数据 ， 
DBMS 从 多 个 索引 中 选择 最 优 索 引 , 当 检索 索引 记录 中 包含 对 应 的 数据 记录 ,就 不 需要 再 
读 入 数据 记录 ,从 而 可 以 在 很 大 程度 上 提高 效率 ,这 也 是 B-Tree 索引 受到 传统 数据 库 系 统 
青睐 的 原因 。 

B-Tree 是 一 种 平衡 的 多 路 查找 树 ,图 4. 10 给 出 这 样 一 个 示例 。 
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图 4.10 B-Tree 索引 


一 个 B-Tree 索引 包含 两 种 节点 : 
(1) 分 支 节点 ,指向 对 应 的 低层 节点 。 
(2) 时 节点 ,存放 B-Tree 方法 的 实际 内 容 , 即 包含 指向 叶 节点 所 对 应 的 行 的 实际 
位 置 。 
wr 


B-Tree 结构 的 优点 是 简洁 性 、 易 维护 性 及 可 支持 对 具有 高 可 选择 性 列 值 的 高 速 检索 。 
这 种 方法 适合 于 对 索引 列 值 等 值 查找 和 范围 查找 的 查询 。 表 的 大 小 对 于 从 其 相应 表 中 提取 
用 B-Tree 索引 的 数据 的 速度 差别 很 小 ,甚至 没有 影响 。 一 棵 x 阶 的 B-Tree 索引 具有 如 下 
特点 : 

(1) 一 个 内 部 节点 最 多 有 mm 个 指针 。 

(2) 除了 根 节点 以 外 ,每 个 内 部 节点 至 少 有 [zy/2 上 疏 指 针 (| 矢 示 取 其 上 限 整数 ) 。 

(3) 如 果 根 节点 不 是 叶 节 点 , 则 根 节 点 至 少 有 两 个 指针 。 

(4) NN 个 指针 的 内 部 节点 必 有 NN 一 1 个 关键 字 : 

《5 

其 中 K;(i 二 1,…,n) 为 关键 字 , 且 K; 过 Ki (i 二 1,…,n 一 1),Ai(i 二 0,…,n) 为 指向 子 树 根 
节点 的 指针 ,指针 A;_1 所 指 子 树 中 所 有 节点 的 关键 字 均 小 于 K;(i 二 1,…,n) ,A 所 指 子 树 
中 所 有 节点 的 关键 字 均 大 于 A, ,z 为 关键 字 的 个 数 ( 或 n 十 1 为 子 树 个 数 )。 

(5) N 个 指针 的 叶 节 点 必 有 N 个 关键 字 。 

(6) 叶 节 点 包含 了 全 部 有 关 关 键 字 的 索引 项 ,并 且 叶 节点 本 身 按照 关键 字 大 小 自 小 到 
大 链接 起 来 。 

B-Tree 索引 在 数据 库 中 的 优势 是 显而易见 的 ,但 它 并 不 适用 于 数据 仓库 ,原因 如 下 : 

(1) B-Tree 索引 中 存储 的 是 字段 值 本 身 , 比 较 适 于 高 基数 字段 ,而 数据 仓库 中 较 多 的 
为 低 基数 字段 。 

(2) 增加 了 在 数据 仓库 中 构造 和 维护 索引 的 代价 ,B-Tree 索引 包含 实际 数据 和 其 他 信 
息 , 如 指针 等 ,使 得 索引 需 占 用 一 定 空间 和 时 间 , 如 果 构 造 所 有 相关 索引 ,数据 仓库 就 会 占 
2 一 4 倍 的 原始 数据 空间 ,当成 批 插入 删除 时 ,索引 就 非常 敏感 ,有 可 能 失去 平衡 并 降低 性 
能 ,通常 ,10% ~~15% 的 数据 修改 就 会 导致 重建 索引 。 

(3) 对 于 分 组 及 聚集 条 件 等 一 些 复 杂 查 询 ,B-Tree 索引 并 不 能 胜任 。 


4.5.2 位 图 索引 


B-Tree 索 引 在 处 理 文件 系统 中 发 挥 了 其 最 大 优势 ,但 对 于 拥有 海量 数据 的 数据 仓库 却 
显得 并 不 灵活 ,于 是 人 们 探寻 一 种 新 的 索引 技术 一 一 位 图 索引 来 解决 此 问题 。 在 表 4-8 中 
对 B-Tree 索 引 和 位 图 索引 进行 了 比较 。 


表 4-8 B-Tree 索引 与 位 图 索引 的 比较 


B-Tree 索引 位 图 索引 


按 行 存 储 数据 按 列 存 储 数 据 

针对 具体 查询 来 建立 查询 驱动 的 索引 机 制 针对 实际 特征 建 索引 

存储 被 索引 字段 数据 不 存储 实际 索引 字段 内 容 

一 列 允 许 一 个 索引 一 列 允 许多 个 索引 

适 于 高 基数 字段 数据 压缩 技术 和 位 操作 技术 适 于 低 基 数字 段 


位 图 索引 不 以 行 记 录 而 是 按 列 为 单位 存储 数据 ,对 数据 进行 垂直 分 割 , 对 于 每 一 个 记录 
的 字段 满足 查询 条 件 的 真 假 值 用 1 或 0 的 方式 表示 ,或 用 该 字段 中 的 不 同 取 值 来 表示 (多 位 
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二 进 制 ) ,一 般 决 策 支 持 查 询 只 涉及 大 量 数据 记录 中 的 少数 列 , 因 而 不 需 访 问 原始 数据 就 能 
快速 获得 查询 结果 。 位 图 索引 适用 于 具有 低 基数 特征 的 多 维 数 据 表 ,查询 时 主要 进行 二 进 
制 运算 。 字 段 A 的 基数 是 指 字段 A 的 不 同 值 的 个 数 , 假 定 将 字段 A 的 基数 记 为 C(A), 则 
字段 A 上 的 位 图 索引 共有 C(A) 个 位 图 ,A 上 的 位 图 索引 记 为 BA, 设 ;是 A 的 一 个 值 ,BA 
中 与 i 相对 应 的 位 图 记 为 Bai 。 

根据 位 图 的 特性 ,位 图 有 其 适用 的 场合 ,对 于 很 少 进行 或 根本 不 进行 插入 、 更 新 操作 的 
表 比 较 适合 建立 位 图 索引 ;更 新 一 个 位 图 索引 所 涉及 的 开销 要 高 于 传统 的 索引 机 制 中 更 新 
索引 的 开销 。 在 数据 仓库 环境 中 ,静态 数据 适宜 采用 位 图 索引 , 且 低 基数 的 列 比较 适合 采用 
位 图 索引 ;而 OLTP 系统 中 的 数据 是 动态 的 ,具有 高 度 的 活动 性 ,不 适合 用 位 图 索引 ;在 
SQL 查询 的 where 和 and 部 分 所 涉及 到 的 列 ,很 适合 采用 位 图 索引 。 

建立 位 图 索引 需要 首先 扫描 整个 表 , 创 建 一 个 位 流 , 每 一 位 与 表 中 某 一 单行 的 一 个 列 
值 相对 应 , 按 所 需 索 引 列 的 分 类 列 值 , 并 根据 在 该 列 中 找到 的 不 同 列 值 的 数目 决定 建立 该 
索引 时 需要 多 少 个 位 图 ,然后 建立 那些 位 流 以 聚集 所 确定 的 索引 。 下 面 以 图 4. 11 中 的 数据 
为 例 , 在 此 基础 上 建立 维 Income 的 位 图 索引 ( 见 表 4-9) 和 维 Region 的 位 图 索引 ( 见 
表 4-10) 。 


Economy Region Income group 


South Asia 


Afghanistan Low income 


Albania Europe & Central Asia Lower middle income 
Algeria Middlw East & North Africa | Lower middle income 
American Samoa East Asia & Pacific Upper middle income 
Andorra East Asia & Pacific High income 

Angola Sub-Saharan Africa Lower middle income 


Antigua and Barbuda 


Sub-Saharan Africa 


High income 


Argentina Latin America & Caribbcan | Upper middle income 
Armenia Europe & Central Asia Lower middle income 
Aruba Europe & Central Asia High income 
Region 维 income 维 
Europe&Central Asia Low income 
South Asia... High income... 


图 4.11 ROLAP 中 的 事实 表 与 维 表 


表 4-9 维 Income 的 位 图 索引 


Economy Low income en Se High Income |Bit-map code 
Afghanistan 中 0 0 0 1000 
Albania 0 1 0 0 0100 
Algeria 0 1 0 0 0100 
American Samoa 0 0 1 0 0010 
Andorra 0 0 0 1 0001 
Angola 0 1 0 0 0100 
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续 表 


Economy Low income RE Vp Dds High Income |Bit-map code 
Income Income 
Antigua and Barbuda 0 0 0 0001 
Argentina 0 0 3 0 0010 
Armcnia 0 1 0 0 0100 
Aruba 0 0 0 1 0001 
表 4-10 维 Region 的 位 图 索引 
Europe & Middle East | Sub-Sab Latin 
Economy Re Central East&. Aran & Aran America& |Bit-map code 
- Asia North Africa| Afica Africa Carbbean 
Afghanistan 1 0 0 0 0 0 100000 
Albania 0 ¥ 0 0 0 0 010000 
Algeria 0 L 1 0 0 0 011000 
American Samoa 0 0 0 1 0 0 000100 
Andorra 0 0 0 1 0 0 000100 
Angola 0 0 0 0 1 0 000010 
Antigua and Barbuda 0 0 0 0 1 0 000010 
Argentina 0 0 0 0 0 L 000001 
Armcnia 0 0 0 0 0 010000 
Aruba 0 1 0 0 0 0 010000 


显然 ,在 处 理 跨 维 的 查找 问题 上 位 图 索引 是 非常 方便 且 节 省 空间 的 , 若 要 进行 跨 维 查找 
Europe&.Central Asia 上 且 是 Lower middle income 的 国家 只 需 做 与 位 对 应 的 逻辑 运算 即 可 ， 
如 图 4. 12 所 示 。 


Lower middle income (0100) 一 -一 一 一 Albania，Algeria，Angola, J 


Albania, Armenia, Aruba pa 


图 4.12 位 图 索引 查询 过 程 


Albania，Armenia 


Europe & Central Asia(010000) 


位 图 索引 的 优点 : 

。 对 于 基数 很 小 的 字段 ,采用 位 图 索引 能 节约 空间 , 且 由 于 位 运算 如 与 或 运算 要 比 列 
表 的 相应 运算 容易 得 多 ,在 检索 上 也 可 以 提高 相应 的 效率 。 

。 数据 的 存 取 可 以 分 组 进行 ,位 图 的 次 序 与 数据 存储 的 次 序 一 致 ,所 有 的 维 都 能 对 称 
地 处 理 ,而且 稀 玻 数据 可 以 与 稠密 数据 一 样 处 理 。 

位 图 索引 的 主要 缺点 : 

。 对 位 图 实施 OR 运算 进行 范围 查询 可 能 代价 很 高 。 由 于 受到 维 数 的 限制 ,AND 运 
算 的 次 数 通常 不 多 : 对 许多 查询 而 言 .处 于 一 个 维 一 定 范围 内 的 每 个 值 都 会 引发 一 
个 OR 运算 ,所 以 OR 运算 的 次 数 可 能 会 很 多 。 

。 101 。 


。 存储 高 基数 数据 的 位 图 所 需 的 空间 总 量 很 可 观 。 
* 批量 更 新 也 可 能 代价 高 昂 , 因 为 所 有 的 位 图 索引 可 能 因为 插入 一 个 新 行 而 需要 
修改 。 
总 之 ,位 图 索引 只 有 在 每 个 字段 基数 都 很 小 的 时 候 可 靠 , 否 则 ,所 需 的 存储 空间 和 位 运 
算 总 量 可 能 会 很 大 。 


4.5.3 位 图 索引 的 扩展 一 一 标识 符 索引 


在 处 理 高 基数 字段 时 位 图 索引 遇 到 了 不 能 逾越 的 障碍 ,而 使 用 标准 的 数据 库 技 术 来 存 
储 数 据 仓 库 是 非常 昂贵 的 , 较 好 的 替代 法 是 用 基于 标识 的 技术 来 存储 , 它 与 关系 数据 库 中 的 
索引 技术 不 同 ,在 关系 数据 库 中 , 当 加 入 一 个 记录 到 系统 中 时 会 追加 此 数据 的 一 个 物理 代表 
块 到 磁盘 上 ,容易 出 现 数据 宛 余 ,而 采用 记录 标识 后 ,存储 记录 的 空间 将 大 大 缩小 ,数据 量 越 
大 ,标准 的 数据 库 和 标识 数据 库 的 存储 需求 差异 也 越 大 , 即 记 录 量 越 多 ,基于 标识 的 数据 库 
的 优势 越 明 显 。 主 要 表现 为 : 

(1) 大 量 压 缩 数 据 。 

(2) 数据 越 多 ,标识 数据 比 标准 的 基于 记录 的 数据 更 有 利 。 

(3) 数据 被 大 量 压缩 后 可 将 整个 数据 库 放 在 内 存 中 。 

(4) 可 索引 所 有 行 和 所 有 列 。 

(5) 大 量 压缩 数据 的 另 一 个 主要 益处 是 使 索引 所 有 属性 成 为 可 能 。 

按照 所 采用 的 标识 符 的 不 同 ,标识 符 又 可 分 为 多 种 ,为 了 更 易 理 解 和 方便 使 用 ,一 般 建 
议 采 用 以 下 两 种 形式 : 一 种 是 字符 型 ; 另 一 种 是 整 型 ,对 于 这 两 种 的 选择 并 没有 很 大 的 差 
别 ,字符 型 的 只 占用 一 个 字 节 的 存储 空间 ,而 整数 型 的 则 占用 两 个 字 节 的 空间 ,但 字符 型 的 
只 限于 字段 值 在 字符 型 的 数据 中 ,所 以 其 取 值 有 限 ,而 整数 型 的 则 没有 这 个 限制 ,如 果 采 用 
无 符号 整 型 数 , 则 可 以 取 到 2* 二 65 536 个 不 同 的 值 ,大 大 扩展 了 其 取 不 同 值 的 能 力 。 如 上 
例 ,如果 采用 无 符号 整 型 标识 符 来 表示 , 则 可 表示 成 如 图 4. 13 所 示 。 


Economy Region income group 
Afgbaniatan 01 South Asia 01 Low income 01 
Albania 02 Europe & Central Asia 02 “Lower middle income 02 
Algeria 03 ”middle East & North Africa 03 Upper middle income 03 
American Samoa 04 East Asia & Pacific 04 High income 04 
Andorra 05 Sub-Saharan Africa 05 

Angola 06 LatinAmerica & Caribbean 06 

Antigua and Barbuda 07 

Argentina 08 

Armenia 09 

Aruba 10 


图 4.13 标识 法 索引 


采用 标识 符 后 原 表 变 为 如 表 4-11 所 示 。 
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表 4-11 采用 标识 符 后 的 表 


Economy Region Income group 
01 01 01 
02 02 02 
03 03 02 
04 04 03 
05 04 04 
06 05 02 
07 05 04 
08 06 03 
09 02 02 
10 02 04 


如 要 进行 跨 维 查找 Europe& Central Asia 且 是 Lower middle income 的 国家 , 则 变 得 更 
加 容易 ,只 要 先 在 标识 符 中 找到 相应 的 标识 号 ,然后 在 不 同 维 间 进 行 连接 计算 即 可 得 到 所 要 
查找 的 标识 符 ,最 后 根据 索引 映射 得 到 最 终结 果 , 其 过 程 如 图 4. 14 所 示 。 


02 02, 09, 10 Se 
02, 09 
02，03，06， pd | 


Albania Armen 


Europe & Central Asia 


Lower middle income 一 一 一 一 02 
图 4. 14 标识 符 索引 查询 的 过 程 


显然 ,位 图 索引 与 标识 符 索引 是 属于 同一 家 族 的 ,都 是 用 另 一 种 符号 来 表示 数值 ,位 图 
索引 是 标识 符 索引 的 特殊 情况 ,其 取 值 只 限于 0/1, 位 图 索引 更 适合 在 基数 比较 小 的 字段 建 
立 , 当 字段 基数 较 大 时 ,建立 位 图 索引 就 会 消耗 大 量 的 存储 空间 : 

。 当 C(A)=8 时 , B4=[C(A)/8 上 1 字 节 

。 当 8 二 C(A)=16 时 ,Bs 二 [C(A)/8 片 2 字 节 

。 当 C(A)>16 时 , Bs=[C(A)/8 卢 3 字 节 

例如 当 C(A)==240 时 ,Bs 二 C(A)/8 二 30 字 节 , 虽 然 在 查询 的 时 间 上 有 所 提高 ,然而 却 
是 以 牺牲 巨大 的 存储 空间 为 代价 的 ;而 标识 符 索 引 可 以 弥补 位 图 索引 的 不 足 , 如 果 采 用 无 符 
号 整数 类 型 作为 标识 符 , 则 只 需 两 个 字 节 的 空间 就 可 表示 2 一 65 536 个 不 同 的 值 ,大 大 节 
省 了 空间 。 


4.5.4 索引 性 能 比较 


(1) 假设 一 个 事实 表 工 ,拥有 的 记录 数 为 2000 万 行 ,其 中 字段 A 的 基数 为 C(A) 二 160， 
每 条 记录 占 30 个 字 节 : 

Q@ 采用 位 图 索引 , 则 需 存储 空间 为 : 

[CCA)/8 IN = [160/8 jx 2000 x 10 000 = 20 x 2000 x 10 000 = 400 000 000 字 节 

@ 采用 数字 型 标识 符 索 引 , 因 为 C(A) 二 160 二 二 2 ,所 以 在 标识 符 中 只 需 两 个 字 节 即 
可 表示 属性 列 A 的 全 部 值 , 则 其 所 需 的 存储 空间 为 : 


.03 3 


2XN 一 40000000 字 节 
比 位 图 索引 少 了 一 个 数量 级 ,显然 ,此 时 选择 标识 符 索 引 比较 有 优势 。 
(2) 假设 一 个 事实 表 工 ,拥有 的 记录 数 为 2000 万 行 ,属性 列 A, 其 CCA)=7, 存 储 A 每 
条 记录 占 30 个 字 节 : 
@ 采用 位 图 索引 , 则 需 存储 空间 为 : 
[CCA)/8 IN = [7/8 jx 2000 x 10 000 = 1 X 20 000 000 = 20 000 000 字 节 
@ 采用 标识 符 索 引 , 仍 选择 数字 类 型 的 标识 符 , 则 其 所 需 的 存储 空间 仍 为 : 
2 XN = 40 000 000 字 节 
可 以 看 出 ,此 时 位 图 索引 比 标识 符 索 引 节 省 了 一 半 的 空间 ,如 果 涉 及 有 关连 接 运 算 , 则 
位 图 索引 由 于 做 的 是 位 运算 更 具有 优势 。 
综 上 ,位 图 索引 与 标识 符 索 引 各 有 其 特点 ,都 有 其 适用 与 不 适用 的 情况 ,不 能 简单 地 评 
判 哪 一 种 好 或 哪 一 种 不 好 ,我 们 应 该 根据 具体 的 实际 情况 选择 合适 的 索引 以 发 挥 其 最 大 的 
价值 。 


4.5.5 索引 的 选择 


数据 仓库 中 的 数据 多 不 仅 表现 在 记录 的 数量 上 ,还 表现 为 其 每 条 记录 所 对 应 的 字段 上 ， 
不 同 的 字段 会 有 不 同 的 数据 特征 : 有 的 字段 的 数据 值 较 多 ,如 姓名 ;有 的 则 较 少 ,如 性 别 , 只 
可 能 有 两 个 值 : 男 或 女 。 字 段 值 的 巨大 差异 性 决定 了 索引 选择 的 不 同 。 

由 于 维 是 人 们 观察 数据 的 角度 ,不 同 的 人 会 从 不 同 的 角度 去 考察 他 们 所 关心 的 数据 。 
在 这 里 , 维 可 以 理解 为 实体 的 属性 列 即 记录 的 字段 ,根据 属性 列 的 不 同 可 以 建立 不 同类 型 的 
索引 列 。 对 于 基数 高 的 可 以 考虑 用 标识 符 索 引 , 对 于 基数 值 较 低 的 则 采用 与 .或 等 位 运算 速 
度 比较 快 的 位 图 索引 。 


4.6 ”OLAP 的 评价 标准 


4.6.1 OLAP 的 衡量 标准 


对 于 OLAP 一 般 都 以 数据 库 之 父 E. E. Codd 提出 的 18 条 准则 为 评价 标准 。 这 些 标准 
主要 包括 : 

(1) 多 维 性 。 多 维 性 是 OLAP 必须 具备 的 ,作为 OLAP 的 用 户 一 一 管理 人 员 所 面 对 的 
企业 和 他 所 管理 的 对 象 是 多 维 的 、 多 角度 的 。 这 就 决定 了 OLAP 要 能 够 为 管理 人 员 提 供 多 
维 视图 来 考察 企业 、 考 察 管理 对 象 。 为 满足 多 维 性 ,关于 企业 的 数据 空间 也 应 该 是 多 维 的 。 
多 维 性 能 够 使 用 户 对 多 维 数据 进行 切片 . 切 块 和 旋转 ,轻松 地 完成 传统 方法 需要 很 长 时 间 才 
能 实现 的 分 析 。 

(2) 直观 性 。 直 观 性 就 是 要 求 OLAP 能 够 为 用 户 提 供 直观 、 易 做 的 数据 操作 , 即 只 要 轻 
松 地 利用 鼠标 的 弹 击 、 双 击 和 拖 放 , 键 盘 的 键 击 ,GUI 的 引导 ,就 可 以 使 用 户 轻 而 易 举 地 完 
成 数据 的 定位 、 向 上 的 汇总 、 向 下 的 钻 取 等 复杂 的 数据 分 析 操 作 。 

(3) 可 访问 性 。 可 访问 性 是 指 存储 在 OLAP 中 的 数据 能 够 以 合适 的 方式 存储 ,便于 用 
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户 的 访问 和 查询 。 物 理 数据 可 以 来 源 于 任何 系统 类 型 ,但 是 对 用 户 是 透明 的 ,只 有 工具 才 需 
要 了 解 这 些 数 据 源 。OLAP 工具 应 该 将 自己 的 逻辑 模式 映射 到 物理 数据 存储 ,并 可 以 访问 
数据 ,还 能 进行 所 需要 的 转换 ,以 给 出 单一 的 、 连 续 一 致 的 用 户 视 图 。 

(4) 解释 性 批 处 理 提取 。 解 释 性 批 处 理 提取 在 OLAP 中 常常 由 OLAP 引擎 或 服务 器 
上 存储 立方 体 的 混合 多 种 工具 来 实现 。 

(5) OLAP 分 析 模 型 。OLAP 分 析 模 型 是 指 在 高 层 获 取 OLAP 所 支持 的 分 析 数 据 , 其 
中 包括 了 静态 描述 性 报告 .解释 性 分 析 、 假 设 性 分 析 和 预测 性 分 析 等 。 

(6) 客户 机 /服务 器 结构 性 。OLAP 应 该 建立 在 C/S 的 体系 结构 上 ,使 用 户 通 过 客户 机 
与 服务 器 的 松弛 耦合 实现 OLAP。 这 种 松弛 的 耦合 可 以 使 不 同 的 客户 机 能 够 连接 到 不 同 的 
服务 器 上 ,而 且 能 使 多 维 数据 库 服务 器 被 不 同 的 应 用 系统 和 工具 访问 。 服 务 器 能 够 实现 企 
业 数据 库 的 逻辑 模型 与 物理 模型 之 间 的 映射 和 一 致 性 ,保证 统一 的 公共 概念 模型 .逻辑 模型 
和 物理 模型 的 建立 。 而 客户 端 则 实现 应 用 逻辑 和 用 户 界面 的 操作 ,使 各 种 客户 只 需 用 最 小 
的 工作 、 最 少 的 程序 就 能 进行 各 种 数据 决策 分 析 。 

(7) 透明 性 或 开放 性 。 透 明 性 和 开放 性 主要 是 指 OLAP 对 用 户 的 透明 和 开放 ,其 次 是 
指 OLAP 的 数据 源 对 用 户 的 透明 和 开放 。 

OLAP 对 用 户 的 透明 和 开放 ,要 求 OLAP 应 该 处 于 一 个 真正 的 开放 系统 中 ,分 析 工 具 
可 以 嵌入 到 分 析 人 员 所 指定 的 任何 位 置 , 既 不 影响 工具 的 效能 ,也 不 增加 系统 的 复杂 性 。 数 
据 源 的 透明 和 开放 ,可 以 使 用 户 只 关心 他 所 要 查询 分 析 的 问题 ,而 不 必 了 解 这 些 分 析 数 据 来 
自 哪里 。 

(8) 多 用 户 性 。OLAP 的 多 用 户 性 可 以 为 多 个 用 户 同时 在 一 个 分 析 模 型 上 进行 操作 ， 
或 在 同一 数据 模型 上 建立 不 同 的 模型 。 多 用 户 的 要 求 必 然 要 求 OLAP 在 实际 应 用 中 ,必须 
保证 数据 的 完整 性 和 安全 性 ,并 能 够 进行 数据 的 并 发 处 理 。 

(9) 处 理 非 正 规 数 据 性 。OLAP 的 处 理 非 正规 数据 性 要 求 系统 能 够 实现 对 从 老 的 业务 
处 理 系 统 中 获取 的 OLAP 数据 进行 解 耦 ,而 没有 返回 数据 源 的 传播 和 计算 。 实 际 上 这 一 标 
准 ,要 求 系统 能 够 达到 *“ 强 聚合 , 弱 耦 合 ” 的 系统 一 般 设 计 标 准 。 

(10) 存储 OLAP 结果 。 存 储 OLAP 结果 的 标准 要 求实 质 上 是 要 求 能 够 将 决策 分 析 和 
数据 源 分 开 ,OLAP 用 户 不 能 在 公共 概念 视图 的 基础 上 对 企业 数据 进行 分 析 。 在 进行 实际 
分 析 过 程 中 需要 将 分 析 的 中 间 结 果 和 最 终结 果 另 外 使 用 一 个 存储 区 进行 存放 。 

(11) 提取 丢失 值 。OLAP 中 的 丢失 值 并 不 是 零 值 ,OLAP 中 的 空 值 可 能 是 未 知 值 ,也 
可 能 是 丢失 值 。 提 取 丢 失 值 是 系统 处 理 空 值 的 一 种 方式 。 

(12) 处 理 丢 失 值 。OLAP 在 处 理 丢 失 值 时 ,OLAP 引擎 应 该 忽略 这 些 丢 失 值 。 

(13) 弹性 报告 。OLAP 的 弹性 报告 要 求 能 够 从 各 方面 提供 从 数据 模型 中 分 析出 的 数 
据 和 信息 ,用 户 可 以 按 任何 想 要 的 方式 来 操作 分析、 综合 和 查看 数据 ,充分 反映 数据 的 多 维 
特征 ,具有 和 较 高 的 灵活 性 。 而 且 , 可 以 由 分 析 人 员 根 据 需 要 对 各 维 的 报告 进行 旋转 、 汇 总 及 
合并 操作 ,以 用 户 所 需要 的 任何 方式 来 显示 ,并 且 报告 的 输出 不 应 随 着 维 数 的 增加 而 削弱 。 

(14) 一 致 性 能 报告 。 该 标准 要 求 OLAP 能 够 为 用 户 提供 时 间 可 预计 的 报告 ,用 户 在 其 
操作 过 程 中 系统 的 响应 时 间 是 确定 的 .这 就 需要 对 立方 体 进行 预定 义 和 预 计算 ,使 在 数据 的 
维 数 与 综合 层次 增加 时 ,提供 给 用 户 的 报告 能 力 不 会 有 明显 的 下 降 ,响应 时 间 不 会 明显 
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延长 。 

(15) 对 物理 层 的 自动 调整 。 在 OLAP 环境 的 关系 模型 中 ,独立 的 物理 数据 需要 能 够 对 
物理 层 自动 进行 调整 ,关系 模型 需要 具备 在 数据 未 印 载 . 删 除 或 重 定义 结构 时 ,能 够 对 底层 
物理 结构 进行 改变 的 能 力 。 

(16) 通用 维 。 在 OLAP 中 需要 具备 通用 维 , 即 在 结构 和 操作 能 力 方面 完全 一 致 的 维 。 
具有 适用 所 有 维 的 逻辑 结构 ,提供 给 某 一 维 的 任何 功能 都 能 提供 给 其 他 维 。 这 点 目前 还 有 
许多 争议 ,因为 除了 时 间 维 ,多 数 维 都 有 自己 的 特性 ,相互 之 间 总 是 存在 差异 。 

(17) 无 限 维 与 聚合 层 。OLAP 的 维 数 不 应 该 小 于 15 个 ,而 且 用 户 可 以 在 任意 给 定 的 
路 径 上 建立 任意 多 个 聚集 层次 ,给 定 联合 路 径 的 概括 级 别 数据 也 是 无 限 的 。 但 是 在 实际 中 ， 
实现 这 一 标准 很 难 , 因 为 无 限 维 与 聚合 层 会 导致 数据 在 有 限 空间 内 的 膨胀 ,这 将 会 用 尽 系统 
的 所 有 存储 空间 。 

(18) 无 限制 跨 维 操作 。 在 多 维 数据 的 分 析 中 ,所 有 维 的 生成 和 处 理 是 平等 的 ,OLAP 
工具 应 该 能 够 处 理 维 间 的 相关 计算 ,而 不 需要 用 户 定 义 计算 。 如 果 在 计算 时 要 按照 语言 
义 规 则 , 则 此 种 语言 应 该 允许 计算 和 数据 操作 跨越 任何 数目 的 数据 维 ,而 不 必 限 制 数 据 单元 
间 的 任何 关系 ,也 无 须 考虑 每 一 单元 包含 的 通用 数据 属性 的 数目 。 也 就 是 说 ,OLAP 的 无 
限制 跨 维 操作 要 能 够 在 维 之 间 进 行 符号 操作 ,而 不 是 仅仅 对 可 测量 的 数据 操作 。 

尽管 Codd 在 1993 年 就 提出 了 OLAP 的 12 条 评价 标准 ,以 后 又 增加 到 18 条 ,但 是 这 
些 标准 是 基于 对 客户 的 研究 所 提出 的 ,到 目前 为 止 ,还 有 较 大 的 争议 。 随 着 对 OLAP 技术 
研究 和 对 OLAP 理解 的 深入 ,有 人 提出 了 对 OLAP 更 为 简捷 的 定义 ,以 加 深 对 OLAP 的 理解 ， 
例如 Nigel Pendse 提出 的 FASMICFast Analysis of Shared Multidimensional Information ) 。 
他 将 OLAP 所 满足 的 特点 用 五 个 词 来 描述 : 

。 Fast 指 对 用 户 请 求 的 快速 响应 。 

。 Analysis 指 可 以 应 用 多 种 统计 分 析 工 具 、 算 法 对 数据 进行 分 析 。 

。 Shared 指 多 个 用 户 在 同时 存 取 数据 时 ,应 该 保证 系统 的 安全 性 。 

。 Multidimensional 则 体现 了 OLAP 应 用 中 的 多 维 实质 。 

。 Information 指 应 用 所 需 的 数据 及 其 导出 信息 。 

要 实现 FASMI, 可 以 采用 的 技术 包括 : 客户 机 /服务 器 结构 、 时 间 序 列 分 析 模 型 .并 行 
处 理 技术 、 面 向 对 象 技 术 、 数 据 存储 优化 和 多 线索 技术 。 


4.6.2 OLAP 服务 器 和 工具 的 评价 标准 


目前 ,市 场 上 所 提供 的 OLAP 工具 很 多 .为 了 能 够 在 OLAP 的 设计 应 用 中 选择 适当 的 
产品 ,必须 从 OLAP 所 具有 的 功能 访问 性 能 .引擎 功能 ,管理 能 力 等 方面 对 OLAP 工具 进 
行 评价 。 

1. OLAP 功能 


OLAP 作为 一 种 数据 分 析 技 术 , 主 要 是 通过 对 现 有 的 数据 进行 计算 、 转 换 产 生 新 的 信 

息 ,并 显示 给 用 户 。 这 就 要 求 OLAP 能 够 完成 这 样 一 些 功 能 : 支持 多 维 数据 集中 的 维 与 层 

次 ,能够 沿 某 个 维 或 一 组 维 进行 数据 的 聚集 、 汇 总 、 预 计 计算 和 派生 ;能 够 对 某 个 维 或 一 组 维 
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提供 计算 逻辑 .公式 和 分 析 例 程 进行 某 种 形式 的 操作 ;能 够 实现 从 一 个 维 到 另外 一 个 维 的 转 
换 ; 能 够 进行 交叉 维 的 计算 ,例如 在 不 同 维 之 间 进 行 成 本 分 配 或 在 电子 表格 中 按照 不 同 维 进 
行 损益 表 的 计算 ;能够 提供 强大 的 分 析 模 型 ,包括 对 选中 维 及 维 的 元 素 的 逻辑 公式、 分 析 例 
程 聚 集 数据 、 汇 总 数据 和 派生 数据 等 ,例如 在 给 定 财务 数据 上 计算 内 部 回报 率 的 财务 模型 ; 
能 够 提供 大 量 的 函数 ,例如 财务 统计、 代数 ,市 场 等 各 种 函数 ;能 够 提供 强大 的 计算 和 逻辑 
比较 能 力 ,例如 对 数据 的 分 级 比较、 归 类 、 百 分 比 、 极 值 均 值 等 ;具有 智能 化 的 与 时 间 相 关 
的 处 理 , 例 如 按照 给 定时 间 段 的 日 历 安排 ;能 够 提供 强大 的 导航 分 析 能 力 , 可 以 沿 单个 或 多 
个 维 的 轴 、 交 叉 表 进 行 浏览 或 钻 取 。 


2. 访问 性 能 


作为 由 广大 管理 人 员 所 组 成 的 OLAP 用 户 ,在 使 用 OLAP 时 ,希望 能 够 得 到 多 种 访问 
数据 工具 的 选择 ,能 够 将 广大 用 户 所 熟悉 的 访问 工具 融合 进 OLAP。 

电子 表格 ,作为 常用 的 电子 表格 Excel 已 经 被 相当 多 的 用 户 所 认同 ,因此 ,在 OLAP 中 
至 少 应 该 提供 数据 加 载 进 电子 表格 的 功能 ,以 满足 用 户 将 从 OLAP 获取 的 数据 移 作 他 用 。 
在 OLAP 中 有 一 些 经 常 性 用 户 , 他 们 往往 需要 进行 一 些 特定 的 应 用 ,如 果 能 够 向 这 些 用 户 
提供 功能 丰富 的 .能够 满足 他 们 特定 要 求 的 私有 客户 工具 ,无 疑 将 增强 OLAP 的 功能 。 能 
否 与 第 三 方 工具 结合 ,主要 是 指 能 和 否 通过 API 将 用 户 已 经 比较 熟悉 的 或 功能 更 加 强大 的 第 
三 方 工 具 加 入 OLAP, 以 完成 用 户 的 需求 。 能 否 提 供 一 些 “ 非 事实 标准 ”接口 ,例如 Visual 
Basic、PowerBuilder、Visual C 等 应 用 环境 或 OLE、DDE、CORBA 等 接口 ,也 是 衡量 OLAP 
工具 访问 性 能 的 一 个 评价 标准 。 


3. 引擎 功能 


OLAP 的 服务 引擎 都 应 该 满足 分 析 模 型 及 应 用 在 功能 、 规 模 和 技术 特征 上 的 要 求 。 这 
些 要 求 主 要 集中 在 能 否 满足 进行 交互 式 预测 和 预算 的 应 用 程序 的 读 写 功能 ,能 否 满足 在 工 
作 组 情况 下 所 进行 的 多 用 户 读 写 操作 。 这 些 读 写 操作 ,尤其 是 写 操作 往往 要 导致 重新 计算 
派生 的 和 经 过 计算 所 得 到 的 信息 ,这 些 信 息 可 能 会 影响 到 多 个 维 及 维 的 层次 ,使 写 锁 的 作用 
范围 远 超过 初次 的 写 范 围 , 而 导致 系统 性 能 的 下 降 。 能 否 满足 多 数据 库 间 的 交互 机 制 ,因为 
在 一 个 OLAP 应 用 程序 中 虽然 有 一 个 数据 库 , 但 是 在 实际 中 往往 会 出 现 多 数据 库 之 间 的 交 
互 机 制 ,因为 在 一 个 数据 库 所 产生 的 数据 可 能 要 进入 其 他 数据 库 。 能 否 满足 OLAP 应 用 程 
序 对 数据 范围 的 要 求 ,在 OLAP 的 用 户 界面 中 ,可 能 需 在 数字 、 时 间 , 日 历 .描述 .BLOB 等 ， 
这 样 才 能 显示 出 更 多 的 图 像 类 型 ,增加 动态 显示 和 执行 报表 的 功能 ,有 利于 复杂 分 析 的 
表达 。 


4. 管理 能 力 


OLAP 并 不 像 一 般 的 业务 操作 系统 ,用 户 对 其 提出 了 强大 的 处 理 功能 和 便捷 的 使 用 要 

求 , 这 必然 要 求 OLAP 能 够 提供 有 力 的 管理 工具 。 这 些 管 理工 具 应 该 具有 这 样 一 些 功 能 : 

可 以 定义 维 的 分 析 模 型 能 生成 并 维护 元 数据 存储 、 具 有 访问 和 使 用 控制 的 权限 ,可 以 解决 

控制 用 户 对 模型 和 数据 的 访问 问题 ,从 数据 仓库 或 数据 集 市 加 载 分 析 模 型 的 管理 问题 ,协调 
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用 户 对 多 维 数据 的 访问 级 别 、 保 证 用 户 可 以 进行 不 受 其 他 用 户 干 扰 的 分 析 等 ,并 且 能 够 为 增 
强 数据 库 的 性 能 或 者 为 修改 维 模型 或 者 为 修改 数据 而 重新 组 织 数 据 库 。 可 以 将 数据 传送 给 
客户 ,以 便 进 一 步 分 析 或 进行 本 地 分 析 。 


4.7 OLAP 的 前 端 展 现 


4.7.1 OLAP 工具 


在 众多 的 决策 支持 技术 中 ,OLAP 技术 以 其 直观 的 数据 操作 、 灵 活 的 分 析 功 能 、 可 视 化 
的 结果 表达 等 特点 ,在 数据 仓库 技术 的 支持 下 得 以 脱颖而出 。 由 于 数据 是 多 种 多 样 的 ,针对 
不 同 的 数据 需要 不 同 的 分 析 和 展现 形式 。 当 前 已 经 有 了 比较 成 熟 的 OLAP 体系 结构 ,但 对 
于 企业 来 说 ,OLAP 尚 不 能 以 一 种 通用 的 工具 形式 来 对 各 个 领域 的 数据 决策 进行 支持 。 因 
此 ,企业 针对 所 需要 分 析 的 数据 ,往往 采用 一 种 或 几 种 解决 方案 来 开发 专门 的 OLAP 分 析 
工具 。 

各 大 数据 库 厂商 都 提供 了 各 自 的 OLAP 解决 方案 ,如 Cgonos 的 PowerPlay、Microsoft 
的 Analysis Services ,IBM 的 DB2 OLAP Server 等 。 常 见 的 OLAP 产品 及 其 特点 如 表 4-12 


表 4-12 常见 的 OLAP 产品 及 其 特点 
OLAP 产品 特 点 


以 服务 器 为 中 心 的 分 布 式 体系 统 构 

用 户 可 自 定义 复杂 的 查询 
快速 的 响应 时 间 、 支 持 多 用 户 同 时 读 写 
提供 开放 接口 ,有 多 个 应 用 程序 .前端 工具 
能 与 ERP 或 其 他 数据 源 集成 


Hyperion Essbase 
OLAP Server 


集成 了 Hyperion Essbase 的 OLAP 引擎 和 DB2 的 关系 数据 库 

完全 兼容 Essbase API 

基于 Hyperion Analyzer 的 DB2 OLAP Server Analyzer, 提供 了 支持 Windows 
与 Web 的 OLAP 客户 端 


IBM DB2 OLAP 
Server 


通过 OLE DB for OLAP, 人 允许 不 同 的 客户 端 访问 

PivotTable Service 提供 了 客户 端的 数据 缓存 和 计算 能 力 

SQL Server 2005 UDM 使 用 户 通过 统一 的 结构 直接 访问 多 个 异类 数据 源 , 并 对 查询 .数据 和 元 数 
Analysis Services 据 使 用 统一 的 传输 方法 

提供 了 “ 自 上 而 下 ”的 创建 OLAP 系统 的 方法 ,大 大 降低 了 工作 量 , 也 有 利于 创 


建 标准 的 多 维 数据 集 和 数据 仓库 
Oracle Express | ”Oracle DW 支持 GB~TB 数 量 级 的 数据 
Et  ”” ”| 。 支持 Web 和 电子 表格 访问 
“Pn 。 数 据 可 以 存储 在 Express Edition 中 ,也 可 直接 在 RDB 上 使 用 
。 封闭 独立 的 客户 端 和 Web Explorer 
PowerPlay 


部 署 简洁 、 交 互 性 强 的 PowerPlay Web Explorer 界面 
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在 诸多 OLAP 解决 方案 中 ,Analysis Services 提供 了 大 量 丰 富 的 编程 接口 ,用 户 完 全 可 
以 根据 自己 企业 的 特点 构建 一 整套 功能 的 OLAP 支撑 工具 。Analysis Services 的 体系 结构 
主要 有 三 个 层次 : 操作 型 数据 源 、Analysis Services 及 其 工具 ,提供 报表 和 其 他 商务 智能 服 
务 的 客户 端 应 用 。 

(1) 操作 型 数据 源 是 任何 能 通过 ODBC 或 者 OLE DB 与 之 相连 的 数据 库 甚 至 平面 
文件 。 

(2) Analysis 服务 器 是 体系 结构 中 的 核心 ,Analysis Services 不 仅 提 供 了 许多 工具 来 操 
作 Analysis 服务 器 ,而且 应 用 程序 可 以 通过 DSO( 决 策 支 持 对 象 ) 来 控制 Analysis 服务 器 ， 
用 户 可 以 使 用 微软 提供 的 工具 分 析 服 务 器 来 构建 数据 立方 体 , 也 可 以 使 用 类 似 Visual Basic 
这 样 的 编程 语言 ,利用 DSO 对 象 模型 ,编写 自 定义 的 程序 来 控制 Analysis 服务 器 。 

(3) 客户 端 体系 结构 的 核心 是 数据 透视 表 服 务 (Pivot Tabel Service,PTS) ,PTS 支持 
在 线 或 离线 数据 分 析 和 在 线 访 问 OLAP 数据 , 它 是 Analysis 服务 器 的 客户 端 。 用 户 可 以 使 
用 PTS 编写 自己 的 应 用 程序 来 访问 OLAP 数据 ,也 可 以 使 用 Microsoft 或 支持 PTS 的 第 三 
方 应 用 程序 来 访问 多 维 OLAP 数据 。 

在 构建 好 数据 仓库 之 后 ,需要 进行 数据 的 装 和 工作 ,但 是 这 些 数据 通常 来 自 多 个 异 构 数 
据 源 ,就 需要 在 数据 装 入 之 前 经 过 提取 、 校 验 、 清 理 、 转 换 和 传输 这 几 个 阶段 。Analysis 
Service 和 数据 仓库 的 数据 源 是 由 向 数据 仓库 提供 数据 的 异 构 操 作 型 数据 和 一 些 服务 组 成 
的 。 这 些 服务 将 数据 从 源 数据 转换 成 可 以 存储 在 数据 仓库 .数据 集 市 或 普通 的 关系 型 数据 
库 的 格式 ,最 后 存 人 OLAP 数据 立方 。 在 Analysis Service 中 ,操作 型 数据 通常 是 一 个 关系 
型 数据 库 ,当然 ,任何 可 以 通过 ODBC 或 OLE DB 与 之 连接 的 数据 源 都 可 以 作为 Analysis 
Services 的 源 。DTS 可 以 将 数据 从 这 些 源 传递 到 Analysis Service 中 。 
4.7.2 OLAP 结果 的 展现 方法 

报表 与 图 形 是 OLAP 系统 向 用 户 展现 分 析 结 果 的 两 种 主要 方法 。 

多 维 数据 报表 可 以 非常 详细 地 和 向 用 户 提 供 分 析 的 结果 ,用 户 可 在 报表 中 找到 所 需 的 
各 种 数据 ,从 而 为 实施 决策 提供 帮助 。 

表 4-13 是 一 个 多 维 报表 的 实例 ,从 表 中 可 以 清楚 地 看 出 ,在 2003 年 1 月 份 ,若干 营业 
部 中 各 类 客户 对 交易 量 的 贡献 情况 。 

表 4-13 各 类 客户 对 交易 量 的 贡献 统计 表 


营业 部 编号 委托 方式 客户 类 别 交易 量 / 万 元 
大 户 67 000 
现场 交易 中 户 83 020 
散户 92 800 
01 
天 六 45 120 
非 现场 交易 中 户 69 000 
散户 99 100 
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续 表 


营业 部 编号 委托 方式 客户 类 别 交易 量 /万 元 
志 户 73 200 
现场 交易 中 户 50 030 
散户 62 200 
02 
夫 称 20 870 
非 现场 交易 中 户 33 110 
散户 98 200 
03 现场 交易 夫 户 40 150 


多 维 报表 虽然 详细 ,但 缺乏 直观 性 ,而 用 户 却 往往 并 不 关心 数据 的 细节 ,而 只 需要 知道 
各 种 因素 对 问题 结果 的 影响 程度 。 因 此 ,图 形 方式 (如 人 饼 图 、 柱 状 图 等 ) 比 多 维 报表 更 受 欢 
迎 。 饼 图 通过 不 同 的 色 块 在 图 中 所 占 比例 的 大 小 ,向 用 户 展示 各 种 因素 对 决策 问题 的 影响 
程度 ,如 图 4.15 所 示 , 而 柱状 图 则 通过 柱 形 的 高 低 进行 展示 。 

如 果 多 维 数据 的 维 数 增加 ,展示 结果 的 图 形 可 从 平面 方式 改进 为 立体 方式 。 常 见 的 立 
体 图 形 有 三 维 柱状 图 、 等 高 线 图 、 立 体 曲 线 图 等 。 图 4. 16 是 三 维 柱状 图 的 例子 。 


oe 100 000 

中 户 80 000 
25% 大 户 

33% " 目 60 000 

中 户 40 000 


贺 散户 20 000 
0 


国 营业 部 01 
回 营业 部 02 


营业 部 01 
02 
大 户 市 户 营业 部 


散户 
图 4.15 分 析 结 果 的 饼 图 图 4.16 分 析 结 果 的 三 维 柱状 图 


如 果 需 分 析 的 问题 具有 很 高 的 复杂 程度 ,具有 多 个 数据 维度 , 则 可 将 多 维 数据 展现 与 数 
据 仓库 系统 结合 起 来 。GIS( 地 理 信息 系统 ) 是 这 类 应 用 的 实例 。GIS 在 电子 地 图 上 进行 多 
层 的 数据 标注 ,为 了 处 理 这 些 十 分 复杂 的 数据 内 容 , 系 统 将 数据 仓库 中 的 数据 进行 归 类 整 
理 , 存 储 在 不 同 的 层次 上 ,用 户 进行 决策 分 析 时 ,只 需 针 对 所 分 析 问 题 的 类 型 ,在 有 关 的 层次 
上 提取 相应 的 数据 ,再 对 这 部 分 数据 进行 适当 的 展示 ,如 图 4.17 所 示 。 


建筑 物 层次 公路 层次 

学 校 
医院 

车 站 / 

铁路 层次 

0 了 

数据 仓库 

0 | -之 


图 4.17 GIS 中 复杂 数据 的 分 层 展示 
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4.8 小 结 


本 章 介绍 了 OLAP 的 简明 定义 、 多 维 分 析 的 基本 概念 .OLAP 的 多 维 数据 分 析 的 基本 
操作 多维 数据 库 及 其 存储 \OLAP 的 体系 结构 .OLAP 的 评价 标准 以 及 OLAP 的 前 端 展 现 
工具 等 方面 的 基本 知识 

OLAP 是 数据 仓库 上 的 分 析 展 示 工 具 ,OLAP 主要 有 两 个 特点 : 一 是 在 线性 即 联机 , 体 
现 为 对 用 户 请 求 的 快速 响应 和 交互 式 操作 ; 另 一 特点 是 多 维 分 析 ,数据 的 多 维 视图 使 用 户 能 
从 多 角度 、 多 侧面 .多 层次 的 查看 包含 在 数据 中 的 信息 。 

OLAP 系统 按照 其 存储 器 的 数据 存储 格式 可 以 分 为 关系 OLAP(Relational OLAP) .多 
维 OLAP(Multidimensional OLAP) 和 混合 型 OLAP(Hybrid OLAP) 三 种 类 型 。ROLAP 
基本 数据 和 聚合 数据 存放 在 关系 数据 库 管 理 系 统 之 中 ;MOLAP 基本 数据 和 聚合 数据 均 存 
放 于 多 维 数据 库 中 ;HOLAP 综合 ROLAP 和 MOLAP 的 特点 ,基本 数据 存放 于 关系 数据 库 
管理 系统 之 中 ,而 聚合 数据 则 存放 于 多 维 数据 库 中 。 

为 提供 快速 有 效 的 数据 访问 ,通常 使 用 索引 技术 对 OLAP 优化 查询 。 大 多 数 数据 库 管 
理 系统 将 B-Tree 索引 技术 作为 默认 的 索引 建立 方法 ,因为 它 的 数据 检索 速度 快 , 易 于 管理 。 
但 对 于 拥有 海量 数据 的 数据 仓库 ,B-Tree 索引 技术 却 显得 并 不 灵活 ,于 是 人 们 探寻 新 的 索 
引 技 术 ( 如 位 图 索引 、 标 识 符 索 引 ) 来 解决 此 问题 。 


4.9 习 题 

1. 填空 题 

(1) OLAP 系统 按照 其 存储 器 的 数据 存储 格式 可 以 分 为 ,多 维 OLAP 
(Multidimensional OLAP) 和 三 种 类 型 。 

(2) 对 于 拥有 海量 数据 的 数据 仓库 ,B-Tree 索引 技术 却 显得 并 不 灵活 ,于 是 人 们 探寻 
新 的 索引 技术 ,如 和 来 解决 此 问题 。 

(3) 用 户 决策 分 析 角 度 或 决策 分 析出 发 点 就 是 数据 仓库 中 的 

(4) 是 多 维 数据 集 的 核心 值 ,是 进行 OLAP 操作 的 用 户 所 要 观察 分 析 的 数据 。 

(5) 上 卷 和 下 钻 的 深度 与 维 所 划分 的 层次 相对 应 ,上 卷 分 析 的 细 化 程度 , 粒 
度 。 下 钻 分 析 的 细 化 程度 ,粒度 

(6) 所 谓 的 数据 * 上 卷 " 是 指 用 户 在 数据 仓库 的 应 用 中 ,从 _ ”开始 逐步 将 数据 按 
照 不 同 的 层次 进行 概括 处 理 。 


(7) 根据 属性 列 的 不 同 我 们 可 以 建立 不 同类 型 的 索引 列 。 对 于 基数 高 的 可 以 考虑 用 标 
识 符 索引 ,对 于 基数 值 较 低 的 则 采用 与 .或 等 位 运算 速度 比较 快 的 

(8) 与 ” 是 OLAP 系统 向 用 户 展现 分 析 结 果 的 两 种 主要 方法 。 

(9) OLAP 系统 在 具体 实现 时 ,如 果 将 多 维 数据 集 存储 于 ,就 可 能 产生 “ 胖 ” 客 
户 端 系统 。 
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(10) OLAP 采用 多 用 户 的 三 层 C/S 结构 , 它 由 、OLAP 服务 器 .OLAP 客户 机 
及 客户 端 应 用 程序 构成 。 


2. 简 答题 


(1) 简 述 OLAP 的 简明 定义 FASMI。 

(2) 简 述 数据 仓库 与 数据 分 析 的 关系 。 

(3) 简 述 MOLAP 与 ROLAP 的 区 别 。 

(4) 位 图 索引 的 主要 优 缺 点 有 哪些 ? 

(5) 简 述 B-Tree 索引 不 适用 于 数据 仓库 的 理由 。 
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经 过 多 年 信息 化 的 发 展 ,企业 资源 规划 (Enterprise Resource Planning,ERP) .顾客 关 
系 管理 (CRM) 和 供应 链 管理 (SCM) 等 提高 企业 以 及 供应 链 管 理 效率 的 平台 都 积累 了 大 量 
的 业务 数据 ,但 是 这 些 数 据 的 价值 还 没有 被 充分 利用 起 来 。 怎 样 把 积累 下 来 的 数据 转变 为 
企业 经 营 者 最 需要 的 信息 和 知识 ,从 而 辅助 决策 ,是 商务 智能 关心 的 主要 问题 。 

商务 智能 的 技术 基础 是 数据 仓库 (DW) .在线 分 析 处 理 (OLAP) 数据 挖掘 (DM) 等 ,其 
中 数据 仓库 用 以 存储 和 管理 数据 ,数据 仓库 的 数据 从 运营 层 而 来 。 在 线 分 析 处 理 用 于 把 这 
些 数据 变 成 信息 ,支持 各 级 决策 人 员 复 杂 查 询 和 在 线 分 析 处 理 , 并 以 直观 易 懂 的 图 表 把 结果 
展现 出 来 。 而 数据 挖掘 可 以 从 海量 的 数据 中 提取 出 隐 含 数据 中 的 有 用 知识 ,以 便 做 出 更 有 
效 的 决策 ,提高 企业 智能 。 


5.1 商务 智能 概述 


随 着 企业 信息 化 的 推进 ,企业 开始 回顾 信息 技术 投资 的 回报 率 ,思考 信息 技术 投资 的 战 
略 价值 ,思考 如 何 充分 利用 数据 资产 。 这 种 注重 实效 的 做 法 是 企业 在 经 历 多 年 的 信息 化 热 
潮 后 走向 理智 的 表现 。 

商务 智能 从 20 世纪 90 年 代 开始 ,已 经 在 众多 企业 中 引起 广泛 关注 ,成 为 业界 关注 的 热 
点 。 商 务 智能 之 父 、 前 Business Objects 总 裁 Bernard Liautaud 认为 ,商务 智能 把 企业 的 运 
营 数据 转化 为 信息 或 知识 ,并 且 在 恰当 的 时 间 通 过 恰当 的 方式 把 恰当 的 信息 传递 给 恰当 的 
人 。 在 21 世纪 ,智能 型 的 商务 战略 将 是 竞争 中 获胜 的 关键 ,改变 了 过 去 经 营 决策 依赖 “ 拍 脑 
袋 ” 的 管理 模式 ,能 够 把 握 此 机 会 的 企业 将 成 为 未 来 市 场 的 领先 者 。 


5.1.1 商务 智能 的 概念 


商务 智能 的 概念 最 早 是 Gartner Group 于 1996 年 提出 来 的 ,当时 将 商务 智能 定义 为 
“以 帮助 企业 决策 为 目的 ,对 数据 进行 收集 存储、 分 析 、 访 问 等 处 理 的 一 大 类 技术 及 其 应 
用 ”。 虽然 研 究 与 应 用 在 不 断 深入 ,但 对 于 商务 智能 尚 没 有 一 个 统一 的 定义 。 下 面 列 出 几 种 
不 同 角度 的 商务 智能 定义 。 

从 技术 角度 看 ,商务 智能 的 过 程 是 企业 的 决策 人 员 以 企业 中 的 数据 仓库 为 基础 ,经 由 
OLAP 工具 ,数据 挖掘 工具 加 上 决策 规划 人 员 的 专业 知识 ,从 数据 中 获得 有 用 的 信息 和 知 
识 , 帮 助 企业 获取 利润 。 

从 应 用 角度 看 ,商务 智能 帮助 用 户 对 商业 数据 进行 联机 分 析 人 处理 和 数据 挖掘 ,例如 预测 
发 展 趋势 ,辅助 决策 ,对 客户 进行 分 类 ,挖掘 潜在 客户 等 。 

从 数据 角度 看 ,商务 智能 使 得 很 多 事务 性 的 数据 经 过 抽取 、 转 换 之 后 存 入 数据 仓库 ,经 
过 聚集 .切片 或 者 分 类 等 操作 之 后 形成 有 用 的 信息 .规则 ,来 帮助 企业 的 决策 者 进行 正确 的 
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决策 。 
5.1.2 商务 智能 的 发 展 历程 


商务 智能 的 出 现 是 一 个 渐进 的 复杂 的 演变 过 程 , 并 且 仍 处 在 发 展 之 中 。 它 经 历 了 事务 
处 理 系统 (TPS) 、 应 用 执行 信息 系统 (EIS) 和 决策 支持 系统 (DSS) 等 阶段 ,最 终 演变 成 今天 
的 企业 商务 智能 。 

事务 处 理 系统 一 般 是 企业 信息 化 进程 中 最 先 建立 起 来 的 一 些 系统 ,用 于 处 理 具体 业务 。 
事务 处 理 系统 向 应 用 执行 信息 系统 .管理 信息 系统 ,决策 支持 系统 和 商务 智能 系统 提供 所 需 
要 的 基础 数据 。 

应 用 执行 信息 系统 有 选择 地 向 管理 人 员 和 执行 人 员 提 供 关于 业务 状况 的 信息 。 通 常 提 
供 的 信息 包括 一 定时 期 内 的 总 销售 额 .每 种 产品 的 销售 额 .销售 数量 。 应 用 执行 信息 系统 虽 
然 能 提供 关于 商业 活动 情况 的 一 些 定制 信息 ,但 要 对 商业 活动 面临 的 问题 作 进一步 分 析 就 
要 借助 于 另 一 些 分 析 工 具 或 由 专业 人 员 来 实现 。 

决策 支持 系统 更 为 灵活 , 它 允 许 决 策 者 查询 存储 于 关系 数据 库 中 的 任何 问题 ,甚至 储存 
于 异地 数据 库 中 的 有 关 数 据 , 并 以 多 样 化 的 格式 提交 给 决策 者 。 

随 着 Internet 出 现 ,在 决策 支持 系统 基础 上 发 展商 务 智能 成 为 必然 。 因 为 随 着 基于 
Web 的 各 种 信息 系统 在 企业 中 的 应 用 ,企业 需要 收集 越 来 越 多 的 关于 客户 、 产 品 及 销售 情 
况 在 内 的 各 种 信息 ,这 些 信息 能 帮助 企业 更 好 地 预测 和 把 握 未 来 。 并 且 随 着 业务 的 迅速 拓 
展 , 企 业 的 数据 来 源 也 近乎 爆炸 式 地 增长 ,企业 好 像 是 坐 在 数据 金 矿 上 ,迫切 需要 一 种 工具 
挖掘 出 这 些 数据 金 矿 以 创造 更 高 价值 。 

在 决策 支持 系统 基础 上 进一步 发 展 起 来 的 商务 智能 系统 能 够 向 用 户 提供 更 为 复杂 的 商 
业 信 息 , 可 以 更 为 方便 地 定制 各 种 报表 和 图 表 的 格式 ,能 够 向 行政 管理 人 员 .技术 人 员 和 普 
通 员工 提供 个 性 化 的 多 维 信息 ,使 分 析 处 理 信 息 的 能 力 和 信息 的 利用 率 大 为 提高 。 

商务 智能 以 数据 库 技术 为 支撑 ,包括 数据 抽取 、 转 换 和 加 载 (ETL) ,数据 清洗 ,数据 控 
掘 和 商业 模型 等 。 实 际 应 用 过 程 中 ,上 述 各 种 系统 可 以 通过 公共 数据 库 连 接 成 为 一 体 , 从 而 
使 各 个 层次 的 用 户 都 可 以 从 中 受益 。 


5.1.3 商务 智能 的 商业 效益 


企业 实施 BI 的 目的 并 不 是 为 了 以 较 高 的 成 本 来 扩展 IT 部 署 规模 或 向 最 终 用 户 提供 有 
趣 的 信息 ,而 是 向 客户 (投资 人 ) 提 供 价值 和 返回 价值 。BI 解决 方案 应 该 具有 向 企业 战术 、 
运营 和 战略 层次 上 的 所 有 雇员 推出 高 度 个 性 化 的 能 力 ,企业 才能 获得 实 实在 在 的 商业 效益 。 
这 些 效 益 表 现在 以 下 几 个 方面 。 


1. 更 强 的 盈利 能 力 


通过 在 恰当 的 时 间 获 得 正确 恰当 的 信息 ,营销 和 销售 团队 就 能 把 握 更 多 的 商机 来 创造 
利润 。 制 造 、 供 应 链 和 后 勤 等 部 门 的 管理 人 员 就 能 找到 很 多 办 法 来 降低 成 本 和 提高 效率 。 
整个 企业 的 每 个 流程 都 能 得 到 更 有 效 的 定义 和 增强 ,进而 改进 净利 润 表现 ,结果 就 是 运营 毛 
利和 利润 均 有 所 提高 。 
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2. 更 高 的 生产 效率 和 能 力 授权 


BI 可 为 人 们 提供 制定 良好 决策 所 需要 的 信息 。 它 可 消除 当 人 们 不 得 不 要 求 其 他 人 提 
交 特 殊 报表 和 等 待 获得 报表 之 间 存 在 的 瓶颈 。 它 还 可 以 使 人 们 能 根据 各 自 的 具体 目的 和 目 
标 来 跟踪 他 们 自己 的 绩效 。 所 以 说 ,BI 能 在 整个 企业 中 触发 建设 性 的 .明智 .及 时 的 行动 。 


3. 更 好 的 责任 义务 和 洞察 能 力 


BI 可 为 管理 人 员 提 供 他 们 评价 和 应 对 个 人 、 团 队 、 产 品 、 计 划 和 流程 等 绩效 所 需要 的 指 
标 。 它 可 使 管理 人 员 通 过 快速 "向 下 钻 取 ”? 而 发 现 这 些 问题 的 根本 原因 ,从 而 找到 应 对 和 解 
决 问题 的 办 法 。 良 好 的 洞察 力 改进 了 整个 机 构 中 管理 决策 的 质量 和 及 时 性 ,进一步 增强 总 
的 企业 绩效 。 


4. 与 法 规 和 政府 相关 问题 的 风险 更 小 


尽早 发 现 问 题 是 避免 违反 法 规 要 求 的 关键 。 立 刻 发 现 异常 事件 的 能 力也 是 良好 企业 管 
理 的 基本 要 求 。 通 过 提供 有 效 而 适当 的 警报 机 制 ,BI 就 能 确保 早期 发 现 问题 并 及 时 通知 。 
BI 还 可 以 通过 简化 事实 发 现 和 决策 制定 的 周期 来 加 快 上 市 速度 。 它 可 通过 实现 卓越 的 市 
场 分 析 并 提供 客户 微妙 行为 的 洞察 力 而 创造 竞争 优势 。 而 且 , 通 过 快速 响应 新 出 现 的 问题 ， 
它 还 能 帮助 企业 提高 客户 满意 度 。 


5.2 商务 智能 系统 架构 


实施 商务 智能 需要 大 量 的 高 质量 业务 数据 ,这 些 数据 一 般 分 布 在 许多 业务 系统 中 ,难免 
存在 噪声 数据 。 如 何 提取 、 净 化 和 整合 这 些 数据 是 数据 分 析 的 基础 。 此 外 ,还 需要 有 把 数据 
转换 为 信息 、 知 识 的 分 析 方 法 和 工具 。 


5.2.1 商务 智能 系统 的 核心 技术 


商务 智能 系统 的 技术 体系 主要 由 数据 仓库 .OLAP 以 及 数据 挖掘 三 部 分 组 成 。 

数据 仓库 是 商业 智能 的 基础 ,许多 基本 报表 可 以 由 此 生成 ,但 它 更 大 的 用 处 是 作为 进 一 
步 分 析 的 数据 源 。 所 谓 数据 仓库 就 是 面向 主题 的 、 集 成 的 .稳定 的 .不 同时 间 的 数据 集合 ， 
以 支持 经 营 管理 中 的 决策 制定 过 程 。 多 维 分 析 和 数据 挖掘 是 最 常 听 到 的 例子 ,数据 仓库 能 
供给 它们 所 需要 的 、 整 齐 一 致 的 数据 。 

OLAP 技术 则 帮助 分 析 人 员 、 管 理 人 员 从 多 种 角度 把 从 原始 数据 中 转化 出 来 能够 真 
正 为 用 户 所 理解 的 .并 真实 反映 数据 维持 性 的 信息 ,进行 快速 ,一 致 ,交互 地 访问 ,从 而 获得 
对 数据 的 更 深入 了 解 的 一 类 软件 技术 。 

数据 挖掘 是 一 种 决策 支持 过 程 , 它 主要 基于 AI、 机 器 学 习 、 统 计 学 等 技术 ,高 度 自动 化 
地 分 析 企 业 原 有 的 数据 ,做 出 归纳 性 的 推理 ,从 中 挖掘 出 潜在 的 模式 ,预测 客户 的 行为 ,帮助 
企业 的 决策 者 调整 市 场 策略 ,减少 风险 ,做 出 正确 的 决策 。 
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5.2.2 商务 智能 的 体系 结构 


实施 商务 智能 ,首先 需要 准备 正确 可 用 的 数据 ,其 次 要 将 这 些 数据 转换 成 有 价值 的 信 
息 , 再 用 于 指导 商业 实践 。 这 个 过 程 包括 了 数据 抽取 、 分 析 和 挖掘 三 个 主要 环节 ,分 别 由 数 
据 仓库 、 联 机 分 析 处 理 和 数据 挖掘 技术 来 完成 。 数 据 仓库 是 商务 智能 的 基础 ,存储 按照 商务 
智能 要 求 重 新 组 织 的 来 自 业务 系统 的 数据 ;联机 分 析 处 理 和 数据 挖掘 在 数据 仓库 的 基础 上 
进行 分 析 ,提供 给 最 终 用 户 灵活 自主 的 信息 访问 途径 .丰富 的 数据 分 析 与 报表 功能 。 为 了 清 
晰 的 了 解 商务 智能 ,图 5. 1 给 出 了 商务 智能 的 体系 结构 。 


商务 智能 应 用 


决策 支持 工具 
查询 和 报表 OLAP 数 据 挖掘 
| 
访问 工具 
应 用 接口 中 间 件 服务 器 


个 元 
管 数据 管理 划 
理 
其 他 名 
全 局 | | 部 门 凶 库 | | 其 他 理 
仓库 | | (数据 集 市 ) | | 信忠 
TAN 
~ 
数据 仓库 建 模 和 构造 工具 
可 操作 的 和 外 部 的 数据 


图 5.1 商务 智能 体系 结构 


商务 智能 体系 结构 中 各 组 成 部 分 说 明 如 下 : 

(1) 可 操作 的 和 外 部 的 数据 。 商 务 智能 系统 的 数据 源 。 其 中 ,内 部 信息 来 自 企 业 的 日 
常 业务 处 理 系 统 ,如 ERP、 前 台 交易 系统 等 ,外 部 信息 来 自 Internet 和 行业 期 刊 等 。 

(2) 数据 仓库 建 模 和 构造 工具 。 用 来 从 数据 源 系统 中 捕捉 数据 ,经 过 加 工 和 转换 后 装 
入 数据 仓库 ,例如 数据 ETL 工具 将 业务 数据 库 中 的 数据 经 过 处 理 后 装载 入 数据 仓库 服务 
器 中 。 

(3) 数据 管理 。 管 理 终端 用 户 感 兴趣 的 信息 。 一 般 采 用 三 层 存 储 结构 , 即 数据 仓库 一 
数据 集 市 一 特定 主题 的 信息 存储 。 其 中 ,数据 仓库 (全 局 仓库 ) 集 成 企业 的 所 有 信息 ;数据 集 
市 (又 称 部 门 数据 仓库 ?存储 某 个 部 门 的 信息 :特定 主题 的 信息 存储 用 于 存储 根据 用 户 和 应 
用 需求 裁剪 后 的 信息 。 经 数据 仓库 建 模 和 构造 工具 处 理 后 的 数据 装载 到 全 局 仓库 ,然后 按 
部 门 从 全 局 仓库 中 抽取 相关 数据 载 和 部 门 仓库 ,再 根据 终端 用 户 要 解决 的 特定 问题 从 部 门 
仓库 中 抽取 关于 该 主题 的 数据 载 和 其 他 信息 存储 。 

(4) 访问 工具 。 包 括 应 用 接口 和 中 间 件 服务 器 ,使 得 客户 工具 能 够 访问 和 处 理 数据 库 
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和 文件 系统 中 的 信息 。 

(5) 决策 支持 工具 。 包 括 基 本 的 查询 和 报表 工具 以 及 OLAP 和 数据 挖掘 工具 。 这 些 工 
具 都 支持 图 形 用 户 界面 ,有 些 还 可 以 在 Web 界面 上 使 用 。 

(6) 商务 智能 应 用 。 是 许多 针对 不 同行 业 或 应 用 领域 ,经 过 裁剪 的 完整 的 商务 智能 解 
决 方案 软件 包 。 

(7) 元 数据 管理 。 用 来 管理 与 商务 智能 系统 有 关 的 元 数据 ,包括 技术 元 数据 和 商业 元 
数据 。 

(8) 管理 。 包 括 商务 智能 管理 的 各 个 方面 ,如 安全 性 和 验证 、 备 份 和 恢复 及 其 监控 和 调 
整 等 。 


5.3 商务 智能 系统 的 功能 


商务 智能 系统 是 建立 在 数据 仓库 、 联 机 分 析 ,数据 挖掘 等 技术 的 基础 之 上 ,通过 收集 、 整 
理 和 分 析 企 业内 外 部 的 各 种 数据 ,加 深 企业 对 客户 及 市 场 的 了 解 , 并 运用 一 定 的 工具 对 企业 
运营 状况 、 客 户 需 求 ,市场 动态 等 做 出 合理 的 评价 及 预测 ,为 企业 管理 层 提供 科学 的 决策 依 
据 。 商 务 智能 系统 建设 的 目标 就 是 要 为 企业 提供 一 个 统一 的 分 析 平 台 , 充 分 利用 原 有 系统 
中 积累 的 宝贵 数据 ,对 其 进行 深层 次 的 挖掘 ,并 从 不 同 的 角度 分 析 企 业 的 各 种 业务 指标 和 构 
建 业务 知识 模型 。 商 务 智能 系统 的 功能 可 以 归纳 成 以 下 几 点 。 


1. 数据 管理 方面 


正确 的 商务 决策 是 以 准确 和 及 时 的 信息 为 基础 的 ,而 不 是 靠 直觉 。 商 务 智能 系统 提供 
的 工具 能 帮助 企业 用 户 从 多 个 异 构 数 据 源 ,包括 内 部 的 业务 系统 和 外 部 的 数据 源 提取 数据 ， 
选择 转换、 集成 数据 ,同时 提供 高 效 存储 与 维护 大 量 数据 的 能 力 。 


2. 信息 呈现 方面 


使 用 智能 报表 工具 、OLAP 技术 ,商务 智能 系统 可 以 对 收集 到 的 数据 进行 处 理 ,并 以 报 
表 , 在 线 分 析 等 可 视 化 的 形式 呈现 出 来 ,让 用 户 从 多 个 维度 观察 数据 ,了 解 企业 .市场 的 现 
状 ,以 帮助 企业 用 户 更 好 决策 。 数 据 分 析 、 报 告 及 查询 工具 帮助 企业 决策 者 成 功 穿越 数据 海 
洋 , 并 从 中 得 到 有 价值 的 综合 信息 


3. 运营 分 析 方 面 


运营 分 析 包 括 运 营 指 标 分 析 、 运 营业 绩 分 析 和 财务 分 析 等 。 运 营 指 标 分 析 是 指 对 企业 
不 同 的 业务 流程 和 业务 环节 的 指标 进行 分 析 , 运 营业 绩 分 析 是 指 对 各 部 门 的 营业 额 .销售 量 
等 进行 统计 ,在 此 基础 上 进行 同期 比较 分 析 、 应 收 分 析 、 重 亏 分 析 和 各 种 商品 的 风险 分 析 等 。 
财务 分 析 是 指 对 利润 .费用 支出 资金 占用 以 及 其 他 经 济 指标 进行 分 析 , 及 时 掌握 企业 在 资 
金 使 用 方面 的 实际 情况 ,调整 和 降低 企业 成 本 。 运 营 分 析 的 具体 内 容 见 表 5-1。 
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表 5-1 运营 分 析 


分 析 功能 应 用 举例 
| 产品 定价 ,销售 品类 ,渠道 与 定向 销售 ,代理 商 或 加 盟 店 销售 以 及 销售 变化 情况 

销售 分 析 
分 析 等 

属 友 才 和 顾客 特征 、 顾 客 信用 度 与 忠诚 度 分 析 、 大 顾客 发 现 以 及 顾客 发 展 情况 分 析 , 包 括 
顾客 总 量 、 新 增 顾客 和 顾客 流失 分 析 等 

人 业务 资源 情况 、 供 应 商 货源 与 缺 货 、 商 品 流动 、 库 存 与 需求 预测 以 及 供应 商 绩效 
分 析 等 

绩效 分 析 和 人力 资 源 分 配 的 绩效 .代理 商 与 加 盟 店 的 绩效 分 析 等 

财务 分 析 运营 成 本 与 收入 .财务 状况 与 效益 分 析 等 

业务 预测 与 评估 ”| 通过 分 析 得 到 的 各 种 数据 模型 ,进行 业务 仿真 .预测 和 评估 等 


4. 战略 决策 支持 方面 


战略 决策 支持 是 指 根据 公司 各 战略 业务 单元 (Strategic Business Unit,SBU) 的 经 营业 
绩 和 定位 ,选择 一 种 合理 的 投资 组 合 战 略 。 由 于 商务 智能 系统 集成 了 外 部 数据 ,例如 外 部 环 
境 和 行业 信息 ,各 战略 业务 单元 可 据 此 制定 自身 的 竞争 战略 。 此 外 ,企业 还 可 以 利用 业务 运 
营 的 数据 ,提供 营销 .生产 、 财 务 和 人 力 资源 等 决策 支持 。 


5.4 商务 智能 系统 的 应 用 


在 竞争 日 益 激 烈 的 经 济 环境 下 ,企业 的 生存 发 展 , 关 键 在 于 它 是 否 能 够 对 各 种 不 同 的 用 
户 需求 做 出 快速 的 反应 及 正确 的 决策 并 提供 优质 的 产品 和 服务 。 商 务 智 能 实际 上 是 帮助 企 
业 提 高 决策 能 力 和 运营 能 力 的 概念 ,方法 .过程 以 及 软件 的 集合 ,其 主要 目标 是 将 企业 所 掌 
握 的 信息 快速 转换 成 竞争 优势 ,提高 企业 决策 能 力 、 决 策 效率 以 及 决策 准确 性 。 


5.4.1 商务 智能 系统 特点 


商务 智能 是 企业 应 对 激烈 竞争 的 必要 选择 , 它 契 合 行业 特殊 需求 ,贴近 企业 业务 流程 ， 
并 满足 企业 发 展 需要 。 与 以 往 的 商务 信息 系统 相 比 ,商务 智能 系统 具有 以 下 三 个 特点 : 

(1) 商务 智能 系统 不 仅 采用 了 最 新 的 信息 技术 ,而 且 提 供 了 预先 打 好 包 的 应 用 领域 的 
解决 方案 。 

(2) 商务 智能 系统 着 眼 于 终端 用 户 对 业务 数据 的 访问 和 业务 数据 的 传递 , 它 可 同时 服 
务 于 信息 的 提供 者 和 信息 的 消费 者 。 

(3) 商务 智能 系统 支持 所 有 形式 的 信息 访问 ,而 不 仅仅 是 那些 存储 在 数据 仓库 中 的 
信息 。 


5.4.2 我 国 商务 智能 系统 应 用 现状 分 析 


各 大 IT 厂商 ,如 IBM、Microsoft、Oracle、Cognos 等 纷纷 推出 自己 的 商务 智能 平台 和 工 
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具 。 商 务 智能 正在 迅速 成 为 最 热门 的 话题 ,因为 越 来 越 多 的 人 坚信 ,商务 智能 将 成 为 企业 赢 
利 的 关键 因素 之 一 。 

商务 智能 已 经 成 为 企业 信息 系统 之 后 更 高 层次 、 更 具 战 略 意义 企业 信息 应 用 。 目 前 , 商 
务 智能 技术 已 在 金融 ,保险 、 电 信和 ,零售 业 等 数据 密集 型 行业 得 到 了 广泛 的 应 用 。 然 而 ,商务 
智能 在 我 国 的 应 用 还 处 于 起 步 阶段 ,其 主要 原因 可 以 归纳 为 如 下 几 点 。 


1. 企业 的 数据 积累 不 够 充分 


商务 智能 技术 的 成 功 运用 ,需要 有 大 量 组 织 良好 的 原始 业务 数据 为 基础 ,这 样 数据 分 析 
的 结果 才能 准确 的 反映 企业 的 运作 状态 和 市 场 的 趋势 。 由 于 国内 大 部 分 的 企业 ,特别 是 中 
小 企业 的 业务 系统 不 够 健全 ,业务 数据 的 组 织 也 相对 零乱 分 散 , 从 而 造成 了 实施 商务 智能 系 
统 的 先天 不 足 。 


2. 商务 智能 市 场 需要 培育 


国内 对 商务 智能 概念 和 技术 的 理解 不 够 充分 ,特别 是 企业 的 主管 人 员 普 遍 没 有 认识 到 
大 量 的 业务 数据 中 蕴含 的 价值 和 商机 。 另 外 由 于 决策 压力 和 决策 成 本 相对 偏 低 , 国 内 企业 
对 商务 智能 技术 的 需求 不 够 强烈 ,所 以 国内 的 商务 智能 市 场 还 有 待 于 进一步 的 培养 。 


3. 企业 的 技术 人 才 医 乏 


商务 智能 系统 的 实施 是 一 个 实践 性 强 的 过 程 , 使 其 最 终 发 挥 效 能 ,除了 有 强大 的 商务 智 
能 平台 和 工具 外 ,还 需要 有 经 验 丰 富 的 BI 技术 人 员 和 对 业务 有 着 很 好 理解 的 数据 分 析 人 
员 。 但 国内 缺少 这 样 的 专业 人 才 , 这 一 点 也 制约 了 中 国 商 务 智 能 市 场 的 发 展 。 


4. 现 有 商务 智能 产品 不 适合 中 国 国 情 


目前 国内 还 没有 很 成 功 的 商务 智能 产品 ,中 国 商务 智能 市 场 基本 上 是 由 外 国 厂商 占据 。 
虽然 这 些 厂商 的 技术 先进 ,产品 功能 强大 而 全 面 ,但 是 由 于 经 济 和 文化 背景 的 差异 以 及 产品 
价格 的 普遍 偏 高 ,这 些 产 品 还 不 能 被 广大 的 中 国企 业 ,特别 是 中 小 企业 所 接受 。 

虽然 存在 上 述 的 一 些 不 利 因素 , 但 是 随 着 市 场 竞 争 的 加 剧 和 企业 信息 化 建设 的 逐步 完 
善 以 及 商务 智能 知识 在 中 国 的 普及 ,商务 智能 技术 在 中 国 的 应 用 前 景 广阔 而 充满 生机 ,现在 
已 经 有 越 来 越 多 的 企业 和 组 织 开始 使 用 商务 智能 技术 来 监控 企业 的 财务 和 运营 状况 。 许 多 
的 中 国 软件 企业 也 投入 大 量 的 人 力 和 财力 ,积极 开发 更 适合 国内 企业 情况 的 、 高 性 价 比 的 商 
务 智能 软件 产品 。 


5.5 小 结 


本 章 主要 介绍 了 商务 智能 的 概念 商务 智能 系统 的 核心 技术 、 商 务 智能 的 体系 结构 以 及 
商务 智能 系统 的 功能 等 方面 的 相关 知识 。 
商务 智能 是 企业 利用 数据 仓库 、 数 据 挖掘 、\OLAP、 决 策 支 持 系统 等 信息 技术 对 企业 经 
营 过 程 中 产生 的 大 量 结构 化 和 非 结构 化 商务 数据 和 信息 进行 收集 .整理 和 分 析 ,提供 整个 企 
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业 组 织 内 的 “统一 口径 ”的 信息 平台 ,以 辅助 企业 用 户 做 出 正确 决策 .采取 有 效 商务 行动 . 优 
化 完善 商务 流程 .全面 提升 商务 绩效 的 工具 、 方 法 和 技术 的 统称 。 

商务 智能 系统 的 技术 体系 主要 由 数据 仓库 (DW) .在线 分 析 处 理 (OLAP) 以 及 数据 挖掘 
(DM) 三 部 分 组 成 。 数 据 仓 库 是 商业 智能 的 基础 ,许多 基本 报表 可 以 由 此 生成 ,但 它 更 大 的 
用 处 是 作为 进一步 分 析 的 数据 源 。 在 线 分 析 处 理 (OLAP) 技 术 则 帮助 分 析 人 员 、 管 理 人 员 
获得 对 数据 的 更 深入 了 解 。 数 据 挖掘 技术 从 企业 积累 的 海量 数据 中 挖掘 出 潜在 的 模式 , 预 
测 客户 的 行为 ,帮助 企业 的 决策 者 调整 市 场 策略 ,减少 风险 ,做 出 正确 的 决策 。 

商务 智能 的 发 展 是 一 个 渐进 的 、 复 杂 的 演变 过 程 ,并 且 仍 处 在 发 展 之 中 。 它 经 历 了 事务 
处 理 系统 (TPS) .应 用 执行 信息 系统 (EIS) 和 决策 支持 系统 (DSS) 等 阶段 ,最 终 演变 成 今天 
的 企业 商务 智能 。 商 务 智 能 在 我 国 的 应 用 还 处 于 起 步 阶段 。 


5.6 习 题 

1. 填空 题 

(1) 商务 智能 的 发 展 经 历 了 和 决策 支持 系统 (DSS) 等 阶段 ,最 终 演 
变 成 今天 的 企业 商务 智能 。 

(2) 商务 智能 系统 的 技术 体系 主要 由 S 以 及 数据 挖 气 (DM) 三 部 分 
组 成 。 

(3) ERP 是 的 缩写 ;CRM 是 的 缩写 ;SCM 是 的 缩写 。 

(4) 商务 智能 的 概念 最 早 是 于 1996 年 提出 来 的 。 

(5) 事务 处 理 系统 一 般 是 企业 信息 化 进程 中 最 先 建立 起 来 的 一 些 系 统 ,用 于 5 

2. 简 答 题 


(1) 简 述 商务 智能 的 概念 。 

(2) 简 述 商务 智能 系统 的 特点 。 

(3) 简 述 我 国 商 务 智能 的 应 用 现状 。 

(4) 简 述 商务 智能 系统 的 体系 结构 。 

(5) 商务 智能 的 商业 效益 体现 在 哪些 方面 ? 
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第 6 党 ”数据 其 让 理 撤 术 


数据 预 处 理 (data preprocessing) 是 指 在 对 数据 进行 数据 挖掘 主要 的 处 理 以 前 , 先 对 原 
始 数据 进行 必要 的 清洗 、 集 成 转换 .离散 和 归 约 等 一 系列 的 处 理工 作 ,以 达到 挖掘 算法 进行 
知识 获取 研究 所 要 求 的 最 低 规范 和 标准 。 

现实 世界 的 数据 库 往 往 易 受 噪 声 .丢失 数据 和 不 一 致 数据 的 侵扰 ,因为 数据 库 太 大 ( 常 
常 多 达 数 千 兆 字 节 ,甚至 更 多 ) ,并 且 多 半 来 自 多 个 异 构 数据 源 。 低 质量 的 数据 将 导致 低 质 
量 的 挖掘 结果 。 这 就 需要 进行 数据 预 处 理 , 从 而 提高 数据 质量 ,进而 提高 挖掘 结果 的 质量 。 

现在 人 们 已 经 积累 了 大 量 的 数据 预 处 理 技术 。 如 何 恰当 选择 和 应 用 这 些 技 术 得 到 更 有 
效 的 数据 ,是 一 个 值得 探讨 的 问题 。 


6.1 数据 预 处 理 概述 


数据 预 处 理 作 为 数据 挖掘 的 一 个 重要 过 程 , 它 为 数据 挖掘 过 程 提供 质量 保障 的 数据 。 
数据 挖掘 所 依赖 的 数据 来 源 多 种 多 样 , 可 以 是 常用 的 关系 数据 库 .事务 数据 库 .文本 数据 库 、 
多 媒体 数据 库 等 。 其 中 ,不 可 避免 地 存在 噪声 数据 (noisy data)、 宛 余数 据 (redundant 
data) .缺失 数据 (missing data) ,不 确定 数据 (uncertain data) 和 不 一 致 数据 (inconsistent 
data) 等 诸多 情况 。 这 些 数据 成 为 发 现 知 识 的 一 大 障碍 ,它们 造成 了 数据 库 中 存在 着 大 量 不 
精确 .不 确定 ,不一致 和 不 完整 的 数据 信息 。 因 此 ,试图 从 数据 库 中 发 现 有 现实 用 途 的 和 容 
易 被 理解 的 知识 之 前 必须 对 其 进行 一 系列 的 预 处 理 。 如 果 不 进行 数据 的 预 处 理工 作 或 者 这 
项 工作 做 得 不 够 好 ,那么 在 挖掘 阶段 将 会 花费 大 量 的 .超过 必要 的 时 间 去 寻找 知识 ,而 且 这 
样 所 得 到 的 知识 还 不 可 能 很 有 效 和 容易 理解 。 大 量 事实 表明 ,在 知识 发 现 的 系统 中 ,数据 预 
处 理 所 占 用 的 工作 时 间 量 多 达 整 个 挖掘 工作 时 间 量 的 60% 一 80%% 。 


6.1.1 数据 预 处 理 的 必要 性 


数据 仓库 和 数据 挖掘 的 应 用 产生 了 大 量 的 数据 ,这 些 数据 不 一 定 是 规范 化 的 , 它 以 不 同 
的 形式 存储 在 不 同 的 地 方 。 根 据 * 垃 圾 进 ,垃圾 出 ”原理 ,这 些 低 质量 的 数据 进入 系统 将 会 导 
致 昂贵 的 操作 费用 和 系统 漫长 的 响应 时 间 ,并 且 对 从 数据 集中 抽取 的 模式 的 正确 性 和 导出 
规则 的 准确 性 产生 巨大 的 影响 ,更 严重 的 是 会 使 得 决策 支持 系统 产生 错误 的 分 析 结 果 ,误导 
决策 。 因 此 ,在 数据 仓库 的 构建 过 程 中 以 及 在 对 数据 的 导入 过 程 中 和 从 数据 库 中 挖掘 知识 
之 前 都 必须 对 数据 进行 一 系列 的 预 处 理工 作 。 数 据 的 质量 直接 制约 分 析 的 结果 ,如 何 预 处 
理 数据 从 而 提高 数据 质量 ,对 数据 分 析 的 结果 是 否 正确 有 效 有 着 重大 的 影响 ,而 数据 分 析 的 
结果 正确 与 否 直 接 影响 着 决策 者 的 决策 。 因 此 ,在 对 数据 进行 分 析 的 时 候 , 我 们 先 必须 对 不 
完整 的 数据 与 噪声 数据 进行 预 处 理 。 

数据 挖掘 的 对 象 是 从 现实 世界 采集 到 的 大 量 的 各 种 各 样 的 数据 。 由 于 现实 生产 和 实际 
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生活 以 及 科学 研究 的 多 样 性 ,不 确定 性 .复杂 性 等 ,导致 我 们 采集 到 的 原始 数据 比较 散乱 , 它 
们 是 不 符合 挖掘 算法 进行 知识 获取 研究 所 要 求 的 规范 和 标准 的 。 主 要 具有 以 下 特征 : 

(1) 不 完整 性 。 指 的 是 数据 记录 中 可 能 会 出 现 有 些 数据 属性 的 值 丢失 或 不 确定 的 情 
况 , 还 有 可 能 缺失 必需 的 数据 。 这 是 由 于 系统 设计 时 存在 的 缺陷 或 者 使 用 过 程 中 一 些 人 为 
因素 所 造成 的 ,如 有 些 数据 缺失 只 是 因为 输入 时 认为 是 不 重要 的 ;相关 数据 没有 记录 可 能 是 
由 于 理解 错误 ,或 者 因为 设备 故障 ;与 其 他 记录 不 一 致 的 数据 可 能 已 经 删除 ;历史 记录 或 修 
改 的 数据 可 能 被 忽略 等 。 

(2) 含 噪声 。 指 的 是 数据 具有 不 正确 的 属性 值 ,包含 错误 或 存在 偏离 期 望 的 离 群 值 。 
产生 的 原因 很 多 。 比 如 收集 数据 的 设备 可 能 出 故障 ;人 或 计算 机 的 错误 可 能 在 数据 输入 时 
出 现 ;数据 传输 中 也 可 能 出 现 错误 。 不 正确 的 数据 也 可 能 是 由 命名 约定 或 所 用 的 数据 代码 
不 一 致 ,或 输入 字段 (如 时 间 ) 的 格式 不 一 致 而 导致 的 。 实 际 使 用 的 系统 中 ,还 可 能 存在 大 量 
的 模糊 信息 ,有 些 数据 甚至 还 具有 一 定 的 随机 性 。 

(3) 杂乱 性 (不 一 致 性 )。 原 始 数据 是 从 各 个 实际 应 用 系统 中 获取 的 ,由 于 各 应 用 系统 
的 数据 缺乏 统一 标准 的 定义 ,数据 结构 也 有 较 大 的 差异 ,因此 各 系统 间 的 数据 存在 较 大 的 不 
一 致 性 ,往往 不 能 直接 拿 来 使 用 。 同 时 来 自 不 同 的 应 用 系统 中 的 数据 由 于 合并 而 普遍 存在 
数据 的 重复 和 信息 的 元 余 现象 。 

因此 ,我 们 说 存在 不 完整 的 、 含 噪声 的 和 不 一 致 的 数据 是 现实 世界 大 型 的 数据 库 或 数据 
仓库 的 共同 特点 。 一 些 比较 成 熟 的 算法 对 其 处 理 的 数据 集合 一 般 都 有 一 定 的 要 求 ,如 数据 
完整 性 好 ,数据 的 元 余 性 少 、 属 性 之 间 的 相关 性 小 。 然 而 ,实际 系统 中 的 数据 一 般 都 不 能 直 
接 满足 数据 挖掘 算法 的 要 求 。 因 此 我 们 有 进行 数据 预 处 理 的 必要 。 同 时 ,我 们 从 KDD 过 
程 和 数据 挖掘 的 步骤 也 可 以 看 出 ,数据 预 处 理 是 其 中 一 个 重要 的 而 且 是 必需 的 过 程 。 

通过 预 处 理工 作 , 可 以 使 残缺 的 数据 完整 ,将 错误 的 数据 纠正 ,将 多 余 的 数据 去 除 ,将 所 
需 的 数据 挑选 出 来 并 且 进 行 数据 集成 ,将 不 适应 的 数据 格式 转换 为 所 要 求 的 格式 。 还 可 以 
消除 多 余 的 数据 属性 ,从 而 达到 数据 类 型 相同 化 ` 数 据 格式 一 致 化 .数据 信息 精练 化 和 数据 
存储 集中 化 。 总 而 言 之 ,经 过 预 处 理 之 后 ,我 们 不 仅 可 以 得 到 挖掘 系统 所 要 求 的 数据 集 , 使 
数据 挖掘 成 为 可 能 ;而 且 , 还 可 以 尽量 减少 挖掘 系统 所 付出 的 代价 和 提高 挖掘 出 的 知识 的 有 
效 性 与 易 懂 性 。 


6.1.2 数据 预 处 理 的 基本 方法 


数据 挖掘 中 的 预 处 理 主要 是 接受 并 理解 用 户 的 发 现 要求 ,确定 发 现任 务 ,抽取 与 发 现任 
务 相关 的 知识 源 , 根 据 背 景 知识 中 的 约束 性 规则 对 数据 进行 检查 ,通过 清理 和 归纳 等 操作 ， 
生成 供 挖掘 核心 算法 使 用 的 目标 数据 , 即 知 识 库 。 知 识 库 是 原始 数据 库 经 数据 汇集 处 理 后 
得 到 的 二 维 表 ,纵向 为 属性 、 横 向 为 元 组 。 它 汇集 了 原始 数据 库 中 与 发 现任 务 相关 的 所 有 数 
据 的 总 体 特征 ,是 知识 发 现状 态 空 间 的 基底 ,也 可 以 认为 是 最 初始 的 知识 模板 。 

数据 可 以 采取 多 种 手段 进行 预 处 理 。 数 据 清理 可 以 将 数据 中 的 噪声 去 掉 , 纠 正 不 一 致 
的 数据 。 数 据 集成 将 数据 由 多 个 数据 源 ( 各 种 异 构 的 外 部 数据 库 ) 合 并 成 一 致 的 数据 存储 ， 
如 数据 仓库 。 预 处 理 也 可 以 使 用 数据 变换 ,如 规范 化 。 对 数据 进行 规范 化 可 以 提高 涉及 距 
离 度 量 的 挖掘 算法 的 准确 率 和 有 效 性 。 数 据 归 约 可 以 通过 上 聚集 、 删 除 宛 余 特 征 或 从 类 等 方 
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法 来 减 小 数据 规模 。 这 些 技术 相互 之 间 都 可 以 共同 使 用 而 不 互 斥 ,可 以 结合 多 种 方法 对 数 
据 进行 预 处 理 , 甚 至 可 以 相辅相成 达到 更 好 的 效果 。 例 如 ,数据 清理 可 能 涉及 纠正 错误 数据 
的 变换 ,如 将 日 期 字段 变换 成 共同 的 格式 。 数 据 规 约 可 以 减 小 数据 库 中 数据 量 的 大 小 。 这 
些 数 据 处 理 技术 在 挖掘 之 前 使 用 ,可 以 显著 地 减少 脏 数据 的 数量 ,提高 挖掘 模式 的 总 体质 量 
并 且 减 少 实际 挖掘 所 需要 的 时 间 。 因 为 脏 数 据 往往 造成 挖掘 过 程 陷入 人 混乱 ,导致 不 可 靠 的 
输出 。 尽 管 大 部 分 挖掘 算法 都 有 一 些 特定 的 步骤 来 处 理 噪声 数据 或 者 不 完整 的 数据 ,但 它 
们 并 非 总 是 鲁 棒 的 。 所 以 ,一 个 有 效 的 预 处 理 步骤 是 使 用 一 些 清 理 例 程 处 理 数 据 。 通 常 ,我 
们 在 为 系统 的 数据 仓库 准备 相应 的 数据 时 ,数据 清理 和 数据 集成 将 作为 数据 预 处 理 的 步 又 
来 进行 。 

常见 的 数据 预 处 理 方法 有 数据 清洗 ,数据 集成 ,数据 变换 和 数据 归 约 。 图 6. 1 给 出 了 数 
据 预 处 理 的 典型 形式 。 


数据 变换 -2,32,100,59,48 一 一 一 -0.02,0.32,1.00,0.59,0.48 
数据 归 约 属性 属性 
,二 
二 Al A2 A3 … Al26 Ry i 
T2 [一 | Tl | 
事 T3 事 T4 
务 T4 一 一 务 : Ei 
: | T1456 
T2000 | 


图 6.1 数据 预 处 理 的 典型 形式 


数据 清理 (data cleaning) 处 理 例 程 通常 包括 : 填补 遗漏 的 数据 值 . 平 滑 有 噪声 数据 、 识 
别 或 除去 异常 值 ,以 及 解决 不 一 致 问题 。 

数据 集成 (data integration) 就 是 将 来 至 多 个 数据 源 的 数据 合并 到 一 起 ,形成 一 致 的 数 
据 存储 ,如 将 不 同 数据 库 中 的 数据 集成 人 一 个 数据 仓库 中 存储 。 之 后 ,有 时 还 需要 进行 数据 
清理 以 便 消除 可 能 存在 的 数据 宛 余 。 

数据 变换 (data transformation) 主要 是 将 数据 转换 成 适合 于 挖掘 的 形式 ,如 将 属性 数据 
按 比例 缩放 ,使 之 落 入 一 个 比较 小 的 特定 区 间 。 这 一 点 对 那些 基于 距离 的 挖掘 算法 尤为 重 
要 。 包 括 平 滑 处 理 、 聚 集 处 理 、 数 据 泛 化 处 理 、 规 格 化 、 属 性 构造 。 

数据 归 约 (data reduction) 在 不 影响 挖掘 结果 的 前 提 下 ,通过 数值 聚集 .删除 元 余 特 性 
的 办 法 压缩 数据 ,提高 挖掘 模式 的 质量 ,降低 时 间 复 杂 度 。 
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需要 强调 的 是 ,以 上 所 提 及 的 方法 并 不 是 相互 独立 的 ,而 是 相关 联 的 。 例 如 ,元 余 数据 
的 删除 既是 一 种 数据 清理 形式 ,也 是 一 种 数据 归 约 。 而 我 们 做 完 数据 集成 之 后 往往 还 需要 
再 次 进行 数据 清理 工作 。 


6.1.3 数据 预 处 理 的 研究 现状 


目前 ,数据 仓库 和 数据 挖掘 在 理论 和 应 用 上 都 获得 了 极 大 的 发 展 ,数据 预 处 理 作 为 其 重 
要 的 、 必 不 可 少 的 组 成 部 分 ,技术 也 随 之 快速 发 展 。 现 阶段 数据 预 处 理 技术 中 人 研究 最 多 的 是 
数据 清洗 和 数据 归 约 技术 。 

数据 清洗 研究 内 容 主要 涉及 以 下 几 方 面 : 

(1) 对 数据 集 进行 检测 。 现 阶段 主要 有 以 下 方法 : 可 以 采用 统计 学 的 方法 来 对 数据 进 
行 统计 分 析 ,计算 属性 值 的 各 种 数值 ,如 考虑 属性 值 之 间 差 别 大 小 ,方差 等 。 还 有 可 以 对 与 
其 他 数据 格式 不 一 致 的 数据 进行 格式 转换 ,使 之 格式 符合 数据 挖掘 的 需要 。 

(2) 对 数据 集中 重复 的 对 象 进 行 消除 ,也 就 是 对 重复 记录 的 清理 。 对 重复 数据 的 处 理 
在 数据 仓库 环境 下 特别 重要 ,因为 在 具有 多 个 数据 源 的 时 候 可 能 会 产生 大 量 的 重复 记录 。 

(3) 对 缺失 数据 的 补 齐 ,研究 者 大 多 采用 可 靠 的 算法 将 与 缺失 的 值 最 相似 的 值 蔡 换 缺 
失 值 的 方法 ,包括 贝 叶 斯 网 络 、 神 经 网 络 、k 最 临近 分 类 、 粗 糙 集 理论 等 ,这 些 方法 大 都 需要 
判断 缺失 记录 与 完整 记录 之 间 的 记录 相似 度 , 这 是 其 核心 问题 。 

数据 归 约 技术 及 其 主要 内 容 为 : 

(1) 降 维 处 理 。 主 要 采用 删除 宛 余 属 性 的 方法 , 若 用 手工 方法 去 除 宛 余 属性 就 需要 用 
到 专家 知识 。 通 常 使 用 属性 子 集 选 择 方法 ,包括 逐步 向 前 选择 法 .逐步 向 后 删除 法 、 判 定 树 
归纳 法 等 。 

(2) 从 数据 集中 选择 较 小 的 数据 表示 形式 来 减少 数据 量 ,需要 用 到 数值 归 约 技术 ,主要 
采用 直方 图 、. 聚 类 等 技术 。 

(3) 对 信息 系统 中 与 决策 属性 没有 关联 或 者 关联 度 不 大 的 属性 进行 约 简 。 通 过 属性 约 
简 算法 之 后 可 以 得 到 关键 属性 ,减少 元 余 属性 ,从 而 减少 得 到 决策 结果 所 需要 的 时 间 。 

(4) 离散 化 技术 减少 给 定 连 续 属性 值 的 个 数 。 这 种 方法 可 以 通过 简化 运算 量 ,但 大 多 
是 递归 的 ,需要 花费 大 量 的 时 间 在 每 一 步 的 数据 排序 上 。 


6.2 数据 清理 


去 除 源 数据 集中 的 噪声 数据 和 无 关 数 据 ,处理 遗漏 数据 和 清洗 脏 数据 ,去 除 空白 数据 域 
和 知识 背景 上 的 白 噪 声 , 考 虑 时 间 顺 序 和 数据 变化 等 。 完 成 重复 数据 处 理 和 默认 数据 处 理 ， 
完成 数据 类 型 的 转换 。 

数据 清洗 可 以 分 为 有 监督 和 无 监督 两 类 。 有 监督 过 程 是 在 领域 专家 的 指导 下 ,分 析 收 
集 的 数据 ,去 除 明 显 错误 的 噪声 数据 和 重复 记录 ,填补 缺 值 数据 ;无 监督 过 程 是 用 样本 数据 
训练 算法 ,使 其 获得 一 定 的 经 验 ,并 在 以 后 的 处 理 过 程 中 自动 采用 这 些 经 验 完成 数据 清洗 
工作 。 

数据 清洗 的 另 一 个 重要 内 容 是 数据 类 型 的 转换 ,通常 是 指 连续 属性 的 离散 化 。 一 般 来 
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说 ,与 类 别 无 关 的 离散 化 方法 有 等 距 区 间 法 等 频 区 间 法 和 最 大 炉 法 。 与 类 别 有 关 的 方法 有 
划分 法 (Splitting) 和 归并 法 (Merging) 等 。 通 过 离散 化 ,可 以 有 效 地 减少 数据 表 的 大 小 , 提 
高 分 类 的 准确 性 。 

数据 清理 例 程 的 目的 是 要 填充 缺失 的 值 ;光滑 噪声 并 识别 离 群 点 ,纠正 数据 中 的 不 
三 可 ; 


6.2.1 填充 缺失 值 


很 多 的 数据 都 有 缺失 值 。 比 如 ,银行 房屋 贷款 信用 风险 评估 中 的 客户 数据 ,其 中 的 一 些 
属性 可 能 没有 记录 值 ,如 客户 的 家 庭 月 总 收入 。 填 充 丢 失 的 值 ,可 以 用 下 面 的 方法 。 

(1) 忽略 元 组 。 当 缺少 类 标号 时 通常 这 样 做 (假定 挖掘 任务 涉及 分 类 ) 。 除 非 元 组 有 多 
个 属性 缺少 值 ,否则 该 方法 不 是 很 有 效 。 当 每 个 属性 缺少 值 的 百分比 变化 很 大 时 , 它 的 性 能 
特别 差 。 

(2) 人 工 填 写 缺 失 值 。 此 方法 很 费时 ,特别 是 当 数 据 集 很 大 、 缺 少 很 多 值 时 ,该 方法 可 
能 不 具有 实际 的 可 操作 性 。 

(3) 使 用 一 个 全 局 常量 填充 缺失 值 。 将 缺失 的 属性 值 用 同一 个 常数 (如 Unknown 
或 一 c2) 蔡 换 。 但 这 种 方法 因为 大 量 地 采用 同一 个 属性 值 可 能 会 误导 挖掘 程序 得 出 有 偏差 
甚至 错误 的 结论 ,因此 要 小 心 使 用 。 

(4) 用 属性 的 均值 填充 缺失 值 。 例 如 ,已 知 重庆 市 某 银 行 的 贷款 客户 的 平均 家 庭 月 总 
收入 为 9000 元 , 则 使 用 该 值 蔡 换 客 户 收入 中 的 缺失 值 。 

(5) 用 同类 样本 的 属性 均值 填充 缺失 值 。 例 如 ,将 银行 客户 按 信用 度 分 类 ,就 可 以 用 具 
有 信用 度 相 同 的 贷款 客户 的 家 庭 月 总 收入 替换 家 庭 月 总 收入 中 的 缺失 值 。 

(6) 使 用 最 可 能 的 值 填充 缺失 值 。 可 以 用 回归 、 使 用 贝 叶 斯 形式 化 的 基于 推理 的 工具 
或 决策 树 归纳 确定 。 例 如 ,利用 数据 集中 其 他 客户 顾客 的 属性 ,可 以 构造 一 棵 决策 树 来 预测 
家 庭 月 总 收入 的 缺失 值 。 

(7) 用 最 邻近 方法 填充 缺失 值 。 

方法 (3) 一 (6) 使 数据 偏 置 , 填 人 的 值 可 能 不 正确 。 然 而 ,方法 (6) 是 流行 的 策略 ,与 其 他 
方法 相 比 , 它 使 用 已 有 数据 的 大 部 分 信息 来 预测 缺失 值 。 在 估计 家 庭 月 总 收入 的 缺失 值 时 ， 
通过 考虑 其 他 属性 的 值 ,有 更 大 的 机 会 保持 家 庭 月 总 收入 和 其 他 属性 之 间 的 联系 。 

重要 的 是 ,在 某 些 情况 下 ,缺失 值 并 不 意味 数据 有 错误 。 例 如 ,在 申请 信用 卡 时 ,可 能 要 
求 申请 人 提供 驾驶 执照 号 。 没 有 驾驶 执照 的 申请 者 自然 使 该 字段 为 空 。 表 格 应 当 允 许 填 表 
人 使 用 诸如 “无 效 ” 等 值 。 软 件 例 程 也 可 以 用 来 发 现 其 他 空 值 ,如 “不 知道 "“?” 或 “无 ”。 理 
想 地 ,每 个 属性 都 应 当 有 一 个 或 多 个 关于 空 值 条 件 的 规则 。 这 些 规则 可 以 说 明 是 否 允 许 空 
值 ,并 且 或 者 说 明 这 样 的 空 值 应 当 如 何 处 理 或 转换 。 字 段 也 可 能 故意 留 下 空白 ,如 果 它们 在 
商务 处 理 的 最 后 一 步 未 提供 值 的 话 。 因 此 ,尽管 在 得 到 数据 后 , 尽 我 们 所 能 来 清理 数据 ,但 
数据 库 和 数据 输入 的 好 的 设计 将 有 助 于 在 第 一 现场 最 小 化 缺失 值 或 错误 的 数量 。 


6.2.2 光滑 噪声 数据 


噪声 (noise) 是 被 测量 的 变量 的 随机 误差 或 方差 。 给 定 一 个 数值 属性 ,如 price, 我 们 怎 
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样 才能 “光滑 ”数据 ,去 掉 噪声 ? 我 们 看 看 下 面 的 数据 光滑 技术 。 

(1) 分 箱 (binning)。 分 箱 方法 通过 考察 数据 的 “近邻 "( 即 周围 的 值 ) 来 光滑 有 序数 据 的 
值 。 有 序 值 分 布 到 一 些 “ 桶 ?或 箱 中 。 由 于 分 箱 方法 考察 近邻 的 值 ,因此 进行 局 部 光滑 。 一 
般 来 说 ,宽度 越 大 光滑 效果 越 大 。 箱 也 可 以 是 等 宽 的 ,每 个 箱 值 的 区 间 范 围 是 个 常量 。 

(2) 回归 。 可 以 用 一 个 函数 (如 回归 函数 ) 拟 合 数 据 来 光滑 数据 。 线 性 回归 涉及 找 出 拟 
合 两 个 属性 (或 变量 ) 的 “最 佳 ? 线 ,使 得 一 个 属性 可 以 用 来 预测 另 一 个 。 多 元 线性 回归 是 线 
性 回归 的 扩展 ,其 中 涉及 的 属性 多 于 两 个 ,并 且 数 据 拟 合 到 一 个 多 维 曲面 。 

(3) 聚 类 。 可 以 通过 聚 类 检测 离 群 点 ,将 类 似 的 值 组 织 成 群 或 " 徐 ”。 直 观 地 , 落 在 复 集 
合 之 外 的 值 视 为 离 群 点 。 

(4) 人 工 检 测 。 人 工 检 测 是 由 专业 人 员 识 别 孤立 点 。 通 过 人 与 计算 机 的 结合 , 相 比 单 
纯 手动 检查 整个 数据 库 可 以 提高 效率 。 

许多 数据 光滑 的 方法 也 是 涉及 离散 化 的 数据 归 约 方法 。 例 如 ,上 面 介 绍 的 分 箱 技术 减 
少 了 每 个 属性 的 不 同 值 数量 。 对 于 基于 逻辑 的 数据 挖掘 方法 (如 决策 树 归 纳 ) ,反复 地 对 排 
序 后 的 数据 进行 比较 ,这 充当 了 一 种 形式 的 数据 归 约 。 概 念 分 层 是 一 种 数据 离散 化 形式 ,也 
可 以 用 于 数据 光滑 。 


6.2.3 数据 清理 过 程 
把 数据 清理 作为 一 个 过 程 ,该 过 程 包括 下 列 两 个 步 又。 
1. 偏差 检测 (discrepancy detection) 


发 现 噪声 、 离 群 点 和 需要 考察 的 不 寻常 的 值 时 ,可 以 使 用 已 有 的 关于 数据 性 质 的 知识 。 
这 种 知识 或 关于 数据 的 数据 ”" 称 做 元 数据 。 考 察 每 个 属性 的 定义 域 和 数据 类 型 .每 个 属性 
可 接受 的 值 . 值 的 长 度 范围 ;考察 是 否 所 有 的 值 都 落 在 期 望 的 值 域内 、 属 性 之 间 是 否 存在 已 
知 的 依赖 ;把 握 数据 趋势 和 识别 异常 ,比如 远离 给 定 属性 均值 超过 两 个 标准 差 的 值 可 能 标记 
为 潜在 的 离 群 点 。 另 一 种 错误 是 源 编码 使 用 的 不 一 致 问 题 和 数据 表示 的 不 一 致 问题 (如 日 
期 *2009/09/25” 和 “25/09/2009”) 。 而 字段 过 载 (field overloading) 是 另 一 类 错误 源 。 

考察 数据 还 要 遵循 唯一 性 规则 、 连 续 性 规则 和 空 值 规 则 。 可 以 使 用 其 他 外 部 材料 人 工 
地 加 以 更 正 某 些 数据 不 一 致 。 如 数据 输入 时 的 错误 可 以 使 用 纸 上 的 记录 加 以 更 正 。 但 大 部 


2. 纠正 偏差 


一 且 发 现 偏差 ,通常 需要 定义 并 使 用 (一 系列 ) 变 换 来 纠正 它们 。 商 业 工 具 可 以 支持 数 
据 变换 步骤。 但 这 些 工 具 只 支持 有 限 的 变换 ,因此 ,我 们 常常 可 能 选择 为 数据 清理 过 程 的 这 
一 步 编写 定制 的 程序 。 

偏差 检测 和 纠正 偏差 这 两 步 过 程 迭代 执行 。 

随 着 我 们 对 数据 的 了 解 增加 ,重要 的 是 要 不 断 更 新 元 数据 以 反映 这 种 知识 。 这 有 助 于 
加 快 对 相同 数据 存储 的 未 来 版 本 的 数据 清理 速度 。 


。 126 。 


6.3 数据 集成 


数据 分 析 任 务 多 半 涉 及 数据 集成 问题 。 数 据 集成 合并 多 个 数据 源 中 的 数据 ,存放 在 一 
个 一 致 的 数据 存储 (如 数据 仓库 或 数据 集 市 ) 中 。 这 些 数据 源 可 能 包括 多 个 数据 库 、 数 据 立 
方 体 或 一 般 文件 。 数 据 集成 主要 是 将 多 文件 或 多 数据 库 运行 环境 中 的 异 构 数 据 进行 合并 处 
理 , 解 决 语义 的 模型 性 问题 。 该 部 分 主要 涉及 数据 的 选择 .数据 的 冲突 问题 以 及 不 一 致 数据 
的 处 理 问题 。 数 据 集成 中 应 尽量 选择 占 物理 空间 较 小 的 数据 类 型 ,如 在 值 域 范围 内 用 
tinyint 类 型 代替 int 类 型 ,每 条 记录 可 以 节省 3 个 字 节 ,这 对 于 大 规模 数据 集 来 说 将 会 大 大 
减少 系统 的 开销 。 

在 数据 集成 时 ,首先 需要 考虑 的 是 模式 集成 和 对 象 匹 配 问题 。 来 自 多 个 信息 源 的 现实 
世界 的 等 价 实体 的 匹配 涉及 实体 识别 问题 。 例 如 ,判断 一 个 数据 库 中 的 customer_id 与 另 
一 个 数据 库 中 的 cust_number 是 否 是 相同 的 属性 。 每 个 属性 的 元 数据 可 以 用 来 帮助 避免 模 
式 集成 的 错误 ,元 数据 还 可 以 用 来 帮助 变换 数据 。 

元 余 是 在 数据 集成 时 另 一 个 需要 考虑 的 重要 问题 。 一 个 属性 可 能 是 匈 余 的 ,如 果 它 能 
由 另 一 个 或 另 一 组 属性 “导出 ”。 属 性 或 维 命名 的 不 一 致 也 可 能 导致 结果 数据 集中 的 宛 余 。 

有 些 匈 余 可 以 被 相关 分 析 检 测 到 。 给 定 两 个 属性 ,这 种 分 析 可 以 根据 可 用 的 数据 度量 
(两 个 属性 之 间 的 相关 系数 ) 估 计 一 个 属性 能 在 多 大 程度 上 蕴含 男 一 个 属性 。 对 于 数值 属性 
a 和 6b, 之 间 的 相关 系数 为 

> (ai 一 五 )( 记 一 人 


To (nO— 1)o,0, KG 


其 中 ,n 是 数据 集 的 样本 个 数 ,a; 和 ;分 别 是 元 组 i 中 a 和 4b 的 值 ,Z 和 65 分别 是 a 和 6 的 均 
值 ,ss 和 分 别 是 a 和 2 的 标准 差 , 即 


(6-2) 


> (一 六 
0 = | (6-3) 
光一 下 


一 1 过 rs 三 十 1。 如 果 ,大 于 0, 则 a 和 4 是正 相关 的 ,该 值 越 大 ,相关 性 越 强 ( 即 每 个 属 
性 蕴含 另 一 个 的 可 能 性 越 大 )。 因 此 ,一 个 较 高 的 x, 值 表明 a (或 5) 可 以 作为 元 余 而 被 去 
掉 。 如 果 结 果 值 等 于 0, 则 a 和 4 是 独立 的 , 不 存在 相关 。 如 果 结 果 值 小 于 0, 则 a 和 2" 是 负 
相关 的 ,一 个 值 随 另 一 个 的 减少 而 增加 。 这 意味 每 一 个 属性 都 阻止 另 一 个 属性 的 出 现 。 

注意 : 相关 并 不 意味 因果 关系 。 也 就 是 说 ,如 果 a 和 是 相关 的 ,这 并 不 意味 a 导致 0 
或 0 导致 4。 

除了 检测 属性 间 的 宛 余 外 ,还 应 当 在 元 组 级 检测 重复 。 去 规范 化 表 的 使 用 也 可 能 导致 
数据 元 余 。 不 一 致 通常 出 现在 各 种 不 同 的 副本 之 间 , 由 于 不 正确 的 数据 输入 ,或 者 由 于 更 新 
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了 数据 的 部 分 出 现 , 但 未 更 新 所 有 的 出 现 。 

数据 集成 的 第 三 个 重要 问题 是 数据 值 冲 突 的 检测 与 处 理 。 例 如 ,对 于 现实 世界 的 同一 
实体 ,来 自 不 同 数据 源 的 属性 值 可 能 不 同 。 这 可 能 是 因为 表示 、 比 例 或 编码 不 同 。 例 如 , 重 
量 属性 可 能 在 一 个 系统 中 以 公制 单位 存放 ,而 在 另 一 个 系统 中 以 英制 单位 存放 。 对 于 连锁 
旅馆 ,不 同城 市 的 房价 不 仅 可 能 涉及 不 同 的 货币 ,而 且 可 能 涉及 不 同 的 服务 (如 免费 早餐 ) 
和 税 。 

在 一 个 系统 中 记录 的 属性 的 抽象 层 可 能 比 另 一 个 系统 中 “相同 的 ?属性 低 。 

数据 集成 时 将 一 个 数据 库 的 属性 与 另 一 个 匹配 时 ,要 考虑 数据 的 结构 用 来 保证 原 系统 
中 的 属性 函数 依赖 和 参照 约束 与 目标 系统 中 的 匹配 。 

数据 语义 的 异 构 和 结构 对 数据 集成 提出 了 巨大 挑战 。 由 多 个 数据 源 小 心地 集成 数据 能 
够 帮助 降低 和 避免 结果 数据 集中 的 元 余 和 不 一 致 ,从 而 提高 其 后 挖掘 过 程 的 准确 率 和 速度 。 


6.4 数据 变换 


数据 变换 把 数据 转换 成 适应 于 挖掘 的 形式 。 通 过 对 某 些 属性 按 比例 进行 缩放 ,使 属性 
取 值 落 在 较 小 的 区 间 ,例如 数值 型 属性 可 以 规范 化 到 [0,1] 区 间 , 这 种 变换 对 聚 类 、 神 经 网 络 
等 算法 都 是 必要 的 。 连 续 属 性 离散 化 也 是 决策 树 等 分 类 分 析 常 用 的 预 处 理 。 
属性 规范 化 会 减少 挖掘 过 程 所 用 的 时 间 ,而 且 规范 化 可 以 有 效 地 避免 较 大 取 值 的 属性 
对 数据 挖掘 的 过 度 影响 。 
数据 变换 主要 涉及 如 下 方法 : 
(1) 光滑 。 去 掉 数 据 中 的 噪声 。 这 种 技术 包括 分 箱 ` 回 归 和 聚 类 等 。 回 归 和 聚 类 技术 
在 后 面 介绍 ,这 里 简要 介绍 一 下 分 箱 技术 。 分 箱 是 通过 分 析 邻 近 的 值 平滑 存储 数据 的 值 , 可 
处 理 连 续 型 和 分 类 型 变量 ,以 得 到 更 少 的 变量 取 值 种 类 以 便于 分 析 。 数 据 被 分 布 到 箱 中 ,分 
箱 的 方法 是 进行 局 部 的 平滑 ,也 可 以 作为 一 种 离散 化 技术 使 用 。 在 图 6.2 中 ,学 生 的 数学 成 
绩 ( 已 排序 ) 被 划分 存 人 到 等 深 的 深度 为 3 的 箱 中 ,然后 采用 下 面 的 方法 之 一 平滑 。 
学 生 数 学 成 绩 数据 : 61，65，69，71，74，79，80，86，89 
昌 箱 体 的 平均 值 平滑 : 
箱 1: 65，65，65 
划分 为 等 深 的 箱 : 箱 2: 75，75，75 
箱 3: 85，85，85 


箱 1 : 61，65，69 
箱 2: 71，74，79 用 箱 体 边界 平滑 : 
箱 3: 80，86，89 


箱 1: 61，61，69 
箱 2: 71，71，79 
箱 3 : 80，89，89 


图 6.2 分 箱 操作 
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@ 按 箱 平 均值 平滑 分 箱 : 箱 中 每 一 个 值 都 按 箱 中 的 平均 值 蔡 换 ,例如 箱 1 中 的 值 61、 
65、69 的 平均 值 是 65 ,该 箱 中 的 每 一 个 值 被 箱 中 的 平均 值 65 蔡 换 。 

@ 按 箱 中 值 平滑 : 箱 中 的 每 一 个 值 , 按 箱 中 的 中 值 替 换 。 

@ 按 箱 边界 平滑 : 箱 中 的 最 大 和 最 小 值 被 视 为 箱 边界 。 箱 中 的 每 一 个 值 被 最 近 的 边 
界 蔡 换 。 

(2) 聚集 。 对 数据 进行 汇总 或 聚集 。 例 如 ,可 以 聚集 日 销售 数据 ,计算 月 和 年 销售 量 。 
通常 ,这 一 步 用 来 为 多 粒度 数据 分 析 构 造 数据 立方 体 。 聚 集 产 生 较 小 的 数据 集 ,使 得 分 析 的 
数据 更 稳定 ,但 也 应 注意 可 能 会 丢失 有 趣 的 细节 。 

(3) 数据 泛 化 。 使 用 概念 分 层 , 用 高 层 概念 替换 低层 或 “原始 数据 。 例 如 ,分 类 的 属 
性 ,如 街道 ,可 以 泛 化 为 较 高 层 的 概念 ,如 城市 或 国家 。 类 似 地 ,数值 属性 如 年 龄 ,可 以 映射 
到 较 高 层 概念 如 青年 .中 年 和 老年 。 

(4) 规范 化 。 如 果 描 述 样本 或 记录 的 变量 单位 不 统一 ,数值 差别 比较 大 ,就 需要 把 数据 
归 一 化 、 指 数 化 或 标准 化 ,把 不 同 的 属性 进行 比例 缩放 ,使 它们 的 值 落 在 大 致 相同 的 范围 内 ， 
如 一 1.0 一 1.0 或 0.0 一 1.0。 

规范 化 对 于 涉及 神经 网 络 或 距离 度量 的 分 类 算法 (如 最 近邻 分 类 ) 和 聚 类 特别 有 用 。 如 
果 使 用 神经 网 络 后 向 传播 算法 进行 分 类 挖掘 ,对 于 训练 元 组 中 度量 每 个 属性 的 输入 值 规范 
化 将 有 助 于 加 快 学 习 阶段 的 速度 。 对 于 基于 距离 的 方法 ,规范 化 可 以 帮助 防止 具有 较 大 初 
始 值 域 的 属性 (如 income) 与 具有 较 小 初始 值 域 的 属性 (如 二 元 属性 ) 相 比 权 重 过 大 。 有 许 
多 数据 规范 化 的 方法 ,常用 的 有 三 种 : 最 小 -最 大 规范 化 .z-score 规范 化 和 按 小 数 定 标 规 
范 化 。 

Q@ 最 小 -最 大 规范 化 。 假 定 ma 和 Ma 分 别 为 属性 A 的 最 小 值 和 最 大 值 。 最 小 -最 大 规 
范 化 通过 计算 


/ vO—m. 
v 二 A_(new_Ma— new_ma)+ new_ma (6-4) 


MaA—ma 
将 A 的 值 v 映射 到 区 间 [new_ma ,new_Ma] 中 的 v。 
最 小 -最 大 规范 化 对 原始 数据 进行 线性 变换 ,保持 原始 数据 值 之 间 的 联系 。 如 果 今 后 的 
输入 落 在 A 的 原始 数据 值 域 之 外 ,该 方法 将 面临 “越界 ”错误 。 
@ z-score 规范 化 ( 零 均 值 规范 化 ) 。 把 属性 A 的 值 w 基于 A 的 均值 和 标准 差 规范 化 为 
v', 通 过 下 列 公式 计算 : 


v = (v—A)/on (6-5) 
式 中 ,A 和 ca 分 别 为 属性 A 的 均值 和 标准 差 。 当 属性 A 的 实际 最 大 和 最 小 值 未 知 ,或 离 群 
点 左右 了 最 大 -最 小 规范 化 时 ,该 方法 是 有 用 的 。 
假定 属性 平均 家 庭 月 总 收入 的 均值 和 标准 差分 别 为 9000 元 和 2400 元, 值 12 600 元 使 
用 z-score 规范 化 转换 为 : 


12 600— 9000 _ 
2400 


@@ 小 数 定 标 规范 化 。 通 过 移动 属性 A 的 小 数 点 位 置 进行 规范 化 。 小 数 点 的 移动 位 数 
依赖 于 A 的 最 大 绝对 值 。A 的 值 " 规范 化 为 w ,由 下 式 计算 : 


4 


"Le 


次 : 
0 (6-6) 


式 中 ,i 是 使 得 Max(|v 1) 到 1 的 最 小 整数 。 

例如 ,假定 A 的 取 值 是 一 975 一 923。A 的 最 大 绝对 值 为 975。 使 用 小 数 定 标 规范 化 ,用 
1000( 即 ;= 二 3) 除 每 个 值 ,这 样 ,一 975 规范 化 为 一 0.975 ,而 923 被 规范 化 为 0. 923。 

规范 化 将 原来 的 数据 改变 ,特别 是 上 面 的 后 两 种 方法 。 有 必要 保留 规范 化 参数 (如 均值 
和 标准 差 ,如果 使 用 z-score 规范 化 ) ,以 便 将 来 的 数据 可 以 用 一 致 的 方式 规范 化 。 

(5) 属性 构造 (或 特征 构造 )。 属 性 构造 是 由 给 定 的 属性 构造 和 添加 新 的 属性 ,帮助 提 
高 准确 率 和 对 高 维 数据 结构 的 理解 。 可 以 构造 新 的 属性 并 添加 到 属性 集中 ,以 帮助 挖掘 
过 程 。 


6.5 数据 归 约 


有 些 数据 属性 对 发 现任 务 是 没有 影响 的 ,这 些 属性 的 加 入 会 大 大 影响 挖掘 效率 ,甚至 还 
可 能 导致 挖掘 结果 的 偏差 。 数 据 简化 是 在 对 发 现任 务 和 数据 本 身 内 容 理解 的 基础 上 ,寻找 
依赖 于 发 现 目标 的 表达 数据 的 有 用 特征 ,以 缩减 数据 模型 ,从 而 在 尽 可 能 保持 数据 原貌 的 前 
提 下 最 大 限度 地 精简 数据 量 。 

对 海量 数据 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 时 间 , 使 得 这 种 分 析 不 具有 可 操作 
性 ,数据 归 约 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 , 它 小 得 多 ,但 仍 接近 保持 原 数 据 的 完整 
性 。 这 样 ,对 归 约 后 的 数据 集 挖掘 将 更 有 效 ,并 产生 相同 (或 几乎 相同 ) 的 分 析 结 果 。 

用 于 数据 归 约 的 计算 时 间 不 应 当 超 过 或 “抵消 ”对 归 约 数据 挖掘 节省 的 时 间 。 下 面 介绍 
几 种 常见 的 数据 归 约 技术 。 


6.5.1 数据 立方 体 聚 集 


数据 立方 体 存 储 多 维 聚 集 信息 。 每 个 单元 存放 一 个 聚集 值 ,对 应 于 多 维 空间 的 一 个 数 
据点 ,每 个 属性 可 能 存在 概念 分 层 ,允许 在 多 个 抽象 层 进行 数据 分 析 。 数 据 立方 体 提 供 对 预 
计算 的 汇总 数据 进行 快速 访问 ,因此 ,适合 联机 数据 分 析 处 理 和 数据 挖掘 。 例 如 收集 的 数据 
是 某 公司 过 去 几 年 间 每 个 季度 的 销售 数据 ,而 感 兴趣 的 数据 是 年 销售 数据 ,可 以 通过 对 数据 
聚集 汇总 得 到 年 总 销售 额 。 数 据 立 方 体 聚集 为 在 线 分 析 处 理 的 上 钻 、 下 钻 等 操作 提供 了 可 
以 快速 访问 的 汇总 数据 。 

数据 立方 体 聚 集 的 基础 是 概念 分 层 , 用 于 处 理 数 据 立 方 体 中 的 数据 。 在 概念 分 层 的 最 
低 抽象 层 创建 的 立方 体 称 为 基本 方 体 (base cuboid) 。 基 本 方 体 应 当 对 应 于 感 兴趣 的 个 体 实 
体 。 即 最 低层 应 当 是 对 应 于 分 析 可 用 的 或 有 用 的 数据 。 最 高 层 抽象 的 立方 体 称 为 顶点 方 体 
(Capex cuboid) 。 对 不 同 抽象 层 创建 的 数据 立方 体 称 为 方 体 (cuboid) ,因此 数据 立方 体 可 以 
看 做 方 体 的 格 (lattice of cuboids) 。 每 个 较 高 层 抽象 将 进一步 减少 结果 数据 的 规模 。 当 回 
答 数 据 挖掘 查询 时 ,应当 使 用 与 给 定 任 务 相 关 的 最 小 可 用 方 体 。 


6.5.2 属性 子 集 选择 


用 于 分 析 的 数据 集 可 能 包含 数 以 百 计 的 属性 ,其 中 大 部 分 属性 与 挖掘 任务 不 相关 或 
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元 余 。 

属性 子 集 选择 的 基本 启发 式 方法 包括 以 下 几 种 : 

(1) 逐步 向 前 选择 。 该 过 程 由 空 属 性 集 作为 归 约 集 开始 ,确定 原 属性 集中 最 好 的 属性 ， 
并 将 它 添加 到 归 约 集中 。 在 其 后 的 每 一 次 迭代 步骤 中 ,将 剩 下 的 原 属性 集中 最 好 的 属性 添 
加 入 该 集合 。 

(2) 逐步 向 后 删除 。 该 过 程 由 整个 属性 集 开 始 。 在 每 一 步 , 删 除 属性 集中 最 差 的 属性 。 

(3) 向 前 选择 和 向 后 删除 的 结合 。 可 以 将 逐步 向 前 选择 和 向 后 删除 方法 结合 在 一 起 ， 
每 一 步 选择 一 个 最 好 的 属性 ,并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 

(4) 决策 树 归 纳 。 决 策 树 算法 最 初 是 用 于 分 类 的 。 决 策 树 归 纳 构造 一 个 类 似 于 流程 图 
的 结构 ,其 中 每 个 内 部 ( 非 树 叶 ) 节 点 表示 一 个 属性 的 测试 ,每 个 分 支 对 应 于 测试 的 一 个 输 
出 ;每 个 外 部 (树叶 ) 节 点 表示 一 个 类 预测 。 在 每 个 节点 ,算法 选择 “最 好 ”的 属性 ,将 数据 划 
分 成 类 。 

当 决 策 树 归纳 用 于 属性 子 集 选择 时 ,由 给 定 的 数据 构造 决策 树 。 不 出 现在 树 中 的 所 有 
属性 假定 是 不 相关 的 。 出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 。 方 法 的 结束 标准 可 以 不 
同 。 该 过 程 可 以 使 用 一 个 度量 阔 值 来 决定 何 时 停止 属性 选择 过 程 。 


6.5.3 维度 归 约 


维度 归 约 使 用 数据 编码 或 变换 ,以 便 得 到 原 数 据 的 归 约 或 “压缩 表示 。 两 种 流行 有 效 
的 有 损 的 维 归 约 方法 是 : 小 波 变 换 和 主 成 分 分 析 。 


1. 小 波 变 换 


离散 小 波 变换 (DWT) 是 一 种 线性 信和 号 处 理 技术 . 当 用 于 数据 向 量 X 时 ,将 它 变换 成 数 
值 上 不 同 的 小 波 系数 向 量 X' 。 两 个 向 量具 有 相同 的 长 度 。 当 这 种 技术 用 于 数据 归 约 时 ,每 
个 元 组 看 做 一 个 维 数据 向 量 XX== (xi ,xs，… ,zx,) ,用 来 描述 2 个 数据 库 属性 在 元 组 上 的 7 
个 测量 值 。 

小 波 变换 后 的 数据 可 以 截 短 , 仅 存放 一 小 部 分 最 强 的 小 波 系数 ,就 能 保留 近似 的 压缩 数 
据 。 比 如 保留 大 于 用 户 设 定 的 某 个 阔 值 的 所 有 小 波 系数 ,其 他 系数 置 为 0。 这 样 , 结 果 数 据 
表示 非常 稀 朴 ,使 得 如 果 在 小 波 空间 进行 计算 ,利用 数据 稀疏 特点 的 操作 计算 得 非常 快 。 该 
技术 也 能 用 于 消除 噪声 ,而 不 会 光滑 掉 数据 的 主要 特征 ,使 得 它们 也 能 有 效 地 用 于 数据 清 
理 。 给 定 一 组 系数 ,使 用 所 用 的 DWT 的 道 , 可 以 构造 原 数据 的 近似 。 

DWT 与 离散 传 里 叶 变换 (DFT) 有 密切 关系 ,DFT 是 一 种 涉及 正弦 和 余弦 的 信号 处 理 
技术 。 然 而 一 般 地 说 ,DWT 是 一 种 更 好 的 有 损 压 缩 。 也 就 是 说 ,对 于 给 定 的 数据 向 量 , 如 
果 DWT 和 DFT 保留 相同 数目 的 系数 ,DWT 将 提供 原 数据 的 更 准确 的 近似 。 因 此 ,对 于 等 
价 的 近似 ,DWT 比 DFT 需要 的 空间 小 。 不 像 DFT, 小 波 空间 局 部 性 相当 好 ,有 助 于 保留 局 
部 细节 。 

应 用 离散 小 波 变换 的 一 般 过 程 使 用 一 种 分 层 金字 塔 算法 (pyramid algorithm) , 它 在 每 
次 迭代 将 数据 减 半 , 导 致 很 快 的 计算 速度 。 

可 以 将 矩阵 乘法 用 于 输入 数据 ,以 得 到 小 波 系 数 。 所 用 的 矩阵 依赖 于 给 定 的 DWT。 
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和 矩阵 必须 是 标准 正 交 的 , 即 列 是 单位 向 量 并 相互 正 交 ,使 得 矩阵 的 逆 是 它 的 转 置 ,这 种 性 质 
允许 由 光滑 和 光滑 - 差 数 据 集 重 构 数据 。 通 过 将 矩阵 因子 分 解 成 几 个 稀 政 矩阵 ,对 于 长 度 为 
n 的 输入 向 量 ,“ 快 速 DWT” 算 法 的 复杂 度 为 O(n)。 

小 波 变换 可 以 用 于 多 维 数据 ,如 数据 立方 体 。 可 以 按 以 下 方法 做 : 首先 将 变换 用 于 第 
一 个 维 ,然后 第 二 个 ,如 此 下 去 。 计 算 复 杂 性 关于 立方 体 中 单元 的 个 数 是 线性 的 。 对 于 稀 芷 
或 倾斜 数据 和 具有 有 序 属性 的 数据 ,小 波 变 换 给 出 很 好 的 结果 。 小 波 变 换 有 许多 实际 应 用 ， 
包括 指纹 图 像 压 缩 、 计 算 机 视觉 时 间 序 列 数据 分 析 和 数据 清理 。 


2. 主 成 分 分 析 


主 成 分 分 析 (Principal Components Analysis, PCA) 搜 索 k 个 最 能 代表 数据 的 n 维 正 交 
向 量 ,其 中 kn。 这 样 ,原来 的 数据 投影 到 一 个 小 得 多 的 空间 ,导致 维度 归 约 。PCA 通过 创 
建 一 个 替换 的 .更 小 的 变量 集 “ 组 合 ” 属 性 的 基本 要 素 。 原 数据 可 以 投影 到 该 较 小 的 集合 中 。 
PCA 常常 揭示 先前 未 曾 察觉 的 联系 ,并 因此 允许 解释 不 寻常 的 结果 。 基 本 过 程 如 下 : 

(1) 对 输入 数据 规范 化 ,使 得 每 个 属性 都 落 和 人 相同 的 区 间 。 此 步 有 助 于 确保 具有 较 大 
定义 域 的 属性 不 会 支配 具有 较 小 定义 域 的 属性 。 

(2) PCA 计算 k 个 标准 正 交 向 量 , 作 为 规范 化 输入 数据 的 基 。 这 些 是 单位 向 量 , 每 一 个 
方向 都 垂直 于 另 一 个 。 这 些 向 量 称 为 主 成 分 。 输 入 数据 是 主 成 分 的 线性 组 合 。 

(3) 对 主 成 分 按 “ 重 要 性 ?或 强度 降序 排列 。 主 成 分 基本 上 充当 数据 的 新 坐标 轴 , 提供 
关于 方差 的 重要 信息 。 也 就 是 说 ,对 坐标 轴 进 行 排序 ,使 得 第 一 个 坐标 轴 显 示 数 据 的 最 大 方 
差 , 第 二 个 显示 次 大 方差 ,如 此 下 去 。 

(4) 主 成 分 根据 “重要 性 "降序 排列 , 则 可 通过 去 掉 较 弱 的 成 分 ( 即 方差 较 小 ) 来 归 约 数 
据 的 规模 。 使 用 最 强 的 主 成 分 ,应 当 能 够 重 构 原 数据 的 很 好 的 近似 。 

PCA 计算 开销 低 , 可 以 用 于 有 序 和 无 序 的 属性 ,并 且 可 以 处 理 稀 玖 和 倾斜 数据 。 多 于 2 
维 的 多 维 数据 可 以 通过 将 问题 归 约 为 2 维 问题 来 处 理 。 主 成 分 可 以 用 作 多 元 回归 和 聚 类 分 
析 的 输入 。 与 小 波 变换 相 比 ,PCA 能 够 更 好 地 处 理 稀疏 数据 ,而 小 波 变换 更 适合 高 维 数据 。 


6.5.4 数值 归 约 


数值 归 约 技术 指 的 是 选择 替代 的 “ 较 小 的 ?数据 表示 形式 来 减少 数据 量 。 几 种 常用 数 
值 归 约 技术 如 下 : 


1. 回归 和 对 数 线性 模型 


回归 和 对 数 线性 模型 可 以 用 来 近似 给 定 的 数据 。 在 (简单 ) 线 性 回归 中 ,对 数据 建 模 ,使 
之 拟 合 到 一 条 直线 。 例 如 ,可 以 用 以 下 公式 ,将 随机 变量 y( 称 做 响应 变量 ) 建 模 为 男 一 随机 
变量 z( 称 为 预测 变量 ) 的 线性 函数 。 


?3 一 zwr 十 0 (6-7) 

其 中 ,假定 y 的 方差 是 常量 。 在 数据 挖掘 中 ,z 和 > 是 数值 数据 库 属性 。 系 数 ww 和。 

( 称 做 回归 系数 ) 分 别 为 直线 的 斜率 和 Y 轴 截 距 。 系 数 可 以 用 最 小 二 乘 方法 求解 , 它 最 小 化 

分 离 数 据 的 实际 直线 与 直线 估计 之 间 的 误差 。 多 元 线性 回归 是 (简单 ) 线 性 回归 的 扩充 , 允 
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许 响 应 变量 y 建 模 为 两 个 或 多 个 预测 变量 的 线性 函数 。 

对 数 线性 模型 近似 离散 的 多 维 概率 分 布 。 给 定 n 维 元 组 的 集合 ,可 以 把 每 个 元 组 看 做 
n 维 空间 的 点 。 可 以 使 用 对 数 线性 模型 基于 维 组 合 的 一 个 较 小 子 集 , 估 计 离 散 化 的 属性 集 
的 多 维 空间 中 每 个 点 的 概率 。 这 使 得 高 维 数据 空间 可 以 由 较 低 维 空间 构造 。 因 此 ,对 数 线 
性 模型 也 可 以 用 于 维 归 约 (由 于 低 维 空间 的 点 通常 比 原来 的 数据 点 占据 较 少 的 空间 ) 和 数据 
光滑 (因为 与 较 高 维 空 间 的 估计 相 比 , 较 低 维 空 间 的 聚集 估计 较 少 受 抽样 方差 的 影响 ) 。 

回归 和 对 数 线性 模型 都 可 以 用 于 稀 玻 数据 ,尽管 它们 的 应 用 可 能 是 受 限 制 的。 虽然 两 
种 方法 都 可 以 处 理 倾斜 数据 ,但 是 回归 可 望 更 好 。 当 用 于 高 维 数据 时 ,回归 可 能 是 计算 密集 
的 ,而 对 数 线性 模型 表现 出 很 好 的 可 伸缩 性 ,可 以 扩展 到 10 维 左右 。 


2. 直方 图 


直方 图 使 用 分 箱 来 近似 数据 分 布 。 属 性 A 的 直方 图 将 A 的 数据 分 布 划分 为 不 相交 的 
子 集 或 桶 。 如 果 每 个 桶 只 代表 单个 属性 值 /频率 对 , 则 称 为 单 桶 。 通 常 , 桶 表示 给 定 属性 的 
一 个 连续 区 间 。 

确定 桶 和 属性 值 的 划分 规则 ,包括 如 下 : 

(1) 等 宽 。 在 等 宽 直方 图 中 ,每 个 桶 的 宽度 区 间 是 一 致 的 。 

(2) 等 频 ( 或 等 深 )。 在 等 频 直方 图 中 ,创建 桶 ,使 得 每 个 桶 的 频率 粗略 地 为 常数 ( 即 每 
个 桶 大 致 包含 相同 个 数 的 邻近 数据 样本 ) 。 

(3) V 最 优 。 给 定 桶 的 个 数 , 对 于 所 有 可 能 的 直方 图 , 则 V 最 优 直方 图 是 具有 最 小 方 
差 的 直方 图 。 直 方 图 的 方差 是 每 个 桶 代表 的 原来 值 的 加 权 和 ,其 中 权 等 于 桶 中 值 的 个 数 。 

(4) MaxDiff。 在 MaxDiff 直方 图 中 ,考虑 每 对 相 邻 值 之 间 的 差 。 桶 的 边界 是 具有 B 一 1 
个 最 大 差 的 对 ,其 中 8 是 用 户 指定 的 桶 数 。 

V 最 优 和 MaxDiff 直方 图 看 来 是 最 准确 和 最 实用 的 。 对 于 近似 稀疏 和 稠密 数据 ,高 倾 
斜 和 均匀 的 数据 ,直方 图 是 高 度 有 效 的 。 多 维 直 方 图 可 以 表现 属性 间 的 依赖 ,这 种 直方 图 能 
够 有 效 地 近似 多 达 5 个 属性 的 数据 。 但 有 效 性 尚 需 进 一 步 研 究 。 对 于 存放 具有 高 频率 的 离 
群 点 , 单 桶 是 有 用 的 。 


3. 聚 类 


聚 类 技术 将 数据 元 组 视 为 对 象 。 它 将 对 象 划分 为 群 或 徐 , 使 一 个 簇 中 的 对 象 相 互 “ 相 
似 ”, 而 与 其 他 簇 中 的 对 象 “ 相 异 ”。 通 常 , 相 似 性 基于 距离 函数 ,用 对 象 在 空间 中 的 “接近 ” 程 
度 定义 。 复 的 “质量 可 以 用 直径 表示 ,直径 是 得 中 任意 两 个 对 象 的 最 大 距离 。 质 心 距离 是 
徐 质 量 的 另 一 种 度量 ,定义 为 由 复 质 心 ( 表 示 "* 平 均 对 象 ”, 或 簇 空 间 中 的 平均 点 ) 到 每 个 艇 对 
象 的 平均 距离 。 

在 数据 归 约 中 ,用 数据 的 簇 表示 替换 实际 数据 。 该 技术 的 有 效 性 依赖 于 数据 的 性 质 。 
如 果 数 据 能 够 组 织 成 不 同 的 簇 ,该 技术 有 效 得 多 。 在 数据 库 系统 中 ,多 维 索 引 树 主要 用 于 对 
数据 的 快速 访问 。 它 也 能 用 于 分 层 数据 的 归 约 ,提供 数据 的 多 维 聚 类 。 这 可 以 用 于 提供 查 
询 的 近似 回答 。 对 于 给 定 的 数据 对 象 集 ,索引 树 递 归 地 划分 多 维 空间 ,其 树 根 节点 代表 整个 
空间 。 通 常 ,这 种 树 是 平衡 的 ,由 内 部 节点 和 树叶 节点 组 成 。 每 个 父 节点 包含 关键 字 和 指向 
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子女 节点 的 指针 ,子女 节点 一 起 表示 父 节点 代表 的 空间 。 每 个 树叶 节点 包含 指向 它 所 代表 
的 数据 元 组 的 指针 (或 实际 元 组 )。 

这 样 ,索引 树 可 以 在 不 同 的 分 辨 率 或 抽象 层 存放 聚集 和 细节 数据 。 它 提供 了 数据 集 的 
分 层 聚 类 ,其 中 每 个 徐 有 一 个 标记 ,存放 该 徐 包 含 的 数据 。 如 果 我 们 把 父 节点 的 每 个 子女 看 
做 一 个 桶 , 则 索引 树 可 以 看 做 一 个 分 层 的 直方 图 。 类 似 地 ,每 个 桶 进一步 分 成 更 小 的 桶 ,人 允 
许 在 更 细 的 层次 聚集 数据 。 作 为 一 种 数据 归 约 形式 使 用 多 维 索引 树 依赖 于 每 个 维 上 属性 值 
的 次 序 。 二 维 或 多 维 索引 树 包括 R 树 .四 又 树 和 它们 的 变形 。 它 们 都 非常 适合 处 理 稀 玻 数 
据 和 倾斜 数据 。 


4. 抽样 


抽样 可 以 作为 一 种 数据 归 约 技术 使 用 ,因为 它 允 许 用 数据 的 小 得 多 的 随机 样本 ( 子 集 ) 
表示 大 型 数据 集 。 

最 常用 的 抽样 方法 有 4 种 : (假定 大 型 数据 集 D 包含 NN 个 元 组 ) 

(1) ss 个 样本 无 放 回 简单 随机 抽样 (SRSWOR )。 

(2) ;个 样本 有 放 回 简单 随机 抽样 (SRSWR)。 

(3) 聚 类 抽样 : 如 果 D 中 的 元 组 分 组 放 入 M 个 互 不 相交 的 “* 簇 ”, 则 可 以 得 到 ; 个 簇 的 
简单 随机 抽样 (SRS) ,其 中 ;二 M。 例 如 ,数据 库 中 元 组 通常 一 次 检索 一 页 ,这 样 每 页 就 可 以 
视 为 一 个 徐 。 也 可 以 利用 其 他 携带 更 丰富 语义 信息 的 聚 类 标准 。 

(4) 分 层 抽样 : 如 果 划分 成 互 不 相交 的 部 分 , 称 做 层 , 则 通过 对 每 一 层 的 SRS 就 可 
以 得 到 DD 的 分 层 样 本 。 特 别 是 当 数 据 倾斜 时 ,这 可 以 帮助 确保 样本 的 代表 性 。 

采用 抽样 进行 数据 归 约 的 优点 是 ,得 到 样本 的 花费 正比 于 样本 集 的 大 小 ;, 而 不 是 数据 
集 的 大 小 N。 因 此 ,抽样 的 复杂 度 子 线性 (sublinear) 于 数据 的 大 小 。 其 他 数据 归 约 技术 至 
少 需要 完全 扫描 D。 对 于 固定 的 样本 大 小 ,抽样 的 复杂 度 仅 随 数据 的 维 数 线性 地 增加 ;而 
其 他 技术 ,如 使 用 直方 图 ,复杂 度 随 n 指数 增长 。 

用 于 数据 归 约 时 ,抽样 最 常用 来 估计 聚集 查询 的 回答 。 在 指定 的 误差 范围 内 ,可 以 确定 
(使 用 中 心 极限 定理 ) 估 计 一 个 给 定 的 函数 所 需 的 样本 大 小 。 样 本 的 大 小 ; 相对 于 N 可 能 
非常 小 。 对 于 归 约 数据 集 的 逐步 求 精 , 只 需要 简单 地 增加 样本 大 小 即 可 。 


6.5.5 数据 离散 化 与 概念 分 层 


通过 将 属性 值 域 划 分 为 区 间 ,数据 离散 化 技术 可 以 用 来 减少 给 定 连续 属性 值 的 个 数 。 
区 间 的 标记 可 以 替代 实际 的 数据 值 。 用 少数 区 间 标 记 蔡 换 连续 属性 的 数值 ,从 而 减少 和 简 
化 了 原来 的 数据 。 这 导致 挖掘 结果 的 简洁 、 易 于 使 用 的 、 知 识 层 面 的 表示 。 

对 于 给 定 的 数值 属性 ,概念 分 层 定义 了 该 属性 的 一 个 离散 化 。 通 过 收集 较 高 层 的 概念 
〈 如 青年 .中 年 或 老年 ) 并 用 它们 替换 较 低层 的 概念 (如 年 龄 的 数值 ) ,概念 分 层 可 以 用 来 归 约 
数据 。 通 过 这 种 数据 泛 化 ,尽管 细节 丢失 了 ,但 是 泛 化 后 的 数据 更 有 意义 、 更 容易 解释 。 

这 有 助 于 通常 需要 的 多 种 挖掘 任务 的 数据 挖掘 结果 的 一 致 表示 。 此 外 ,与 对 大 型 未 泛 
化 的 数据 集 挖 气相 比 , 对 归 约 的 数据 进行 挖掘 所 需 的 1/O 操作 更 少 ,并 且 更 有 效 。 正 因为 
如 此 ,离散 化 技术 和 概念 分 层 作为 预 处 理 步 又, 在 数据 挖掘 之 前 而 不 是 在 挖掘 过 程 进行 。 
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1. 数值 数据 的 离散 化 和 概念 分 层 产生 


数值 属性 的 概念 分 层 可 以 根据 数据 离散 化 自动 构造 。 通 常 ,每 种 方法 都 假定 待 离散 化 
的 值 已 经 按 递增 序 排序 。 

1) 分 箱 

分 箱 是 一 种 基于 箱 的 指定 个 数 自 顶 向 下 的 分 裂 技术 。 通 过 使 用 等 宽 或 等 频 分 箱 , 然 后 
用 箱 均值 或 中 位 数 蔡 换 箱 中 的 每 个 值 , 可 以 将 属性 值 离散 化 ,就 像 分 别 用 箱 的 均值 或 箱 的 中 
位 数 光 滑 一 样 。 这 些 技术 可 以 递归 地 作用 于 结果 划分 ,产生 概念 分 层 。 分 箱 并 不 使 用 类 信 
息 , 因 此 是 一 种 非 监督 的 离散 化 技术 。 它 对 用 户 指 定 的 箱 个 数 很 敏感 ,也 容易 受 离 群 点 的 
影响 。 

2) 直方 图 分 析 

像 分 箱 一 样 ,直方 图 分 析 也 是 一 种 非 监督 离散 化 技术 ,因为 它 也 不 使 用 类 信息 。 使 用 等 
频 直 方 图 ,理想 地 分 割 值 使 得 每 个 划分 包括 相同 个 数 的 数据 元 组 。 直 方 图 分 析 算 法 可 以 递 
归 地 用 于 每 个 划分 ,自动 地 产生 多 级 概念 分 层 , 直 到 达到 预先 设 定 的 概念 层 数 过 程 终止 。 也 
可 以 对 每 一 层 使 用 最 小 区 间 长 度 来 控制 递归 过 程 。 最 小 区 间 长 度 设 定 每 层 每 个 划分 的 最 小 
宽度 ,或 每 层 每 个 划分 中 值 的 最 少数 目 。 直 方 图 也 可 以 根据 数据 分 布 的 聚 类 分 析 进 行 划分 。 

3) 基于 灶 的 离散 化 

录 Centropy) 是 最 常用 的 离散 化 度量 之 一 。 基 于 业 的 离散 化 是 一 种 监督 的 . 自 顶 向 下 的 
分 裂 技 术 。 它 在 计算 和 确定 分 裂 点 (划分 属性 区 间 的 数据 值 ) 时 利用 类 分 布 信息 。 对 离散 数 
值 属性 A ,选择 A 的 具有 最 小 信 的 值 作为 分 裂 点 ,并 递归 地 划分 结果 区 间 , 得 到 分 层 离散 
化 。 这 种 离散 化 形成 A 的 概念 分 层 。 

4) 基于 x? 分 析 的 区 间 合 并 

采用 自 底 向 上 的 策略 ,递归 地 找 出 最 佳 邻近 区 间 , 然 后 合并 它们 ,形成 较 大 的 区 间 。 这 
种 方法 是 监督 的 , 它 使 用 类 信息 。 其 基本 思想 是 ,对 于 精确 的 离散 化 ,相对 类 频率 在 一 个 区 
间 内 应 当 相当 一 致 。 因 此 ,如 果 两 个 邻近 的 区 间 具 有 非常 类 似 的 类 分 布 , 则 这 两 个 区 间 可 以 
合并 ;否则 ,它们 应 当 保 持 分 开 。 

初始 ,将 数值 属性 A 的 每 个 不 同 值 看 做 一 个 区 间 。 对 每 对 相 邻 区 间 进 行 x? 检验 。 具 
有 最 小 x? 值 的 相 邻 区 间 合并 在 一 起 ,因为 低 x? 值 表明 它们 具有 相似 的 类 分 布 。 该 合并 过 
程 递归 地 进行 ,直到 满足 预先 定义 的 终止 标准 。 

5) 聚 类 分 析 

聚 类 分 析 是 一 种 流行 的 数据 离散 化 方法 。 将 属性 A 的 值 划分 成 能 或 组 , 聚 类 考虑 A 的 
分 布 以 及 数据 点 的 邻近 性 ,可 以 产生 高 质量 的 离散 化 结果 。 遵 循 自 顶 向 下 的 划分 策略 或 自 
底 向 上 的 合并 策略 , 聚 类 可 以 用 来 产生 A 的 概念 分 层 ,其 中 每 个 簇 形成 概念 分 层 的 一 个 节 
点 。 在 前 者 ,每 一 个 初始 簇 或 划分 可 以 进一步 分 解 成 若干 子 簇 ,形成 较 低 的 概念 层 。 在 后 
者 ,通过 反复 地 对 邻近 簇 进行 分 组 ,形成 较 高 的 概念 层 。 

6) 根据 直观 划分 离散 化 

3-4-5 规则 可 以 用 来 将 数值 数据 分 割 成 相对 一 致 . 看 上 去 自然 的 区 间 。 一 般 该 规则 根据 
最 高 有 效 位 的 取 值 范围 ,递归 逐 层 地 将 给 定 的 数据 区 域 划 分 为 3、4 或 5 个 相对 等 宽 的 区 间 。 
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2. 分 类 数据 的 概念 分 层 产生 


1) 由 用 户 或 专家 在 模式 级 显 式 地 说 明 属性 的 偏 序 

通常 ,分 类 属性 或 维 的 概念 分 层 涉及 一 组 属性 。 用 户 或 专家 在 模式 级 通过 说 明 属性 的 
偏 序 或 全 序 ,可 以 很 容易 地 定义 概念 分 层 。 

2) 通过 显 式 数据 分 组 说 明 分 层 结构 的 一 部 分 

这 基本 上 是 人 工地 定义 概念 分 层 结构 的 一 部 分 。 在 大 型 数据 库 中 ,通过 显 式 的 值 枚 举 
定义 整个 概念 分 层 是 不 现实 的 。 然 而 ,对 于 一 小 部 分 中 间 层 数据 ,我 们 可 以 很 容易 地 显 式 说 
明 分 组 。 

3) 说 明 属 性 集 但 不 说 明 它们 的 偏 序 

用 户 可 以 说 明 一 个 属性 集 形成 概念 分 层 , 但 并 不 显 式 说 明 它们 的 偏 序 。 然 后 ,系统 可 以 
尝试 自动 地 产生 属性 的 序 , 构 造 有 意义 的 概念 分 层 。 可 以 根据 给 定 属性 集中 每 个 属性 不 同 
值 的 个 数 自动 地 产生 概念 分 层 。 具 有 最 多 不 同 值 的 属性 放 在 分 层 结 构 的 最 低层 。 一 个 属性 
的 不 同 值 个 数 越 少 , 它 在 所 产生 的 概念 分 层 结构 中 所 处 的 层次 越 高 。 在 许多 情况 下 ,这 种 启 
发 式 规则 都 很 项 用 。 在 考察 了 所 产生 的 分 层 之 后 ,如 果 必 要 ,局 部 层次 交换 或 调整 可 以 由 用 
户 或 专家 来 做 。 

4) 只 说 明 部 分 属性 集 

在 定义 分 层 时 ,有 时 用 户 可 能 不 小 心 ,或 者 对 于 分 层 结构 中 应 当 包 含 什么 只 有 很 模糊 的 
想法 。 结 果 , 用 户 可 能 在 分 层 结构 说 明 中 只 包含 了 相关 属性 的 一 小 部 分 。 为 了 处 理 这 种 部 
分 说 明 的 分 层 结构 ,重要 的 是 在 数据 库 模式 中 能 入 数据 语义 ,使 得 语义 密切 相关 的 属性 能 够 
捆 在 一 起 。 用 这 种 办 法 ,一 个 属性 的 说 明 可 能 触发 整个 语义 密切 相关 的 属性 组 “ 拖 进 ”, 形 成 
一 个 完整 的 分 层 结 构 。 然 而 必要 时 ,用 户 应 当 可 以 选择 忽略 这 一 特性 。 


6.6 小 结 


本 章 主要 介绍 了 数据 预 处 理 的 相关 概念 和 主要 技术 。 

现实 世界 的 数据 往往 存在 噪声 .丢失 数据 和 不 一 致 数据 等 问题 。 为 了 提高 挖掘 结果 的 
质量 就 需要 进行 数据 预 处 理工 作 。 数 据 预 处 理 (data preprocessing) 是 指 在 对 数据 进行 数据 
挖掘 主要 的 处 理 以 前 , 先 对 原始 数据 进行 必要 的 清洗 、 集 成 转换、 离散 和 归 约 等 等 一 系列 的 
处 理工 作 ,以 达到 挖掘 算法 进行 知识 获取 研究 所 要 求 的 最 低 规 范 和 标准 。 

人 们 已 经 积累 了 大 量 的 数据 预 处 理 技术 。 如 何 恰当 选择 和 应 用 这 些 技术 得 到 更 有 效 的 
数据 ,是 一 个 值得 探讨 的 问题 。 


1. 填空 题 


(1) 常见 的 数据 预 处 理 方法 有 ` 数 据 集 成 、 和 数据 归 约 。 
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(2) 数据 清理 处 理 例 程 通常 包括 \ 平 滑 有 了 噪声 数据 .识别 或 除去 异常 值 , 以 


及 
(3) 常用 的 分 箱 方法 有 或 分 箱 。 
(4) 光滑 是 去 掉 数据 中 的 噪声 。 光 滑 技 术 主 要 包括 5 和 聚 类 等 。 
(5) 直观 地 , 落 在 簇 集合 之 外 的 值 视 为 . 
2. 简 答题 


(1) 简 述 噪声 的 概念 。 

(2) 简 述 数据 预 处 理 的 必要 性 。 

(3) 常用 的 填充 丢失 的 值 有 哪些 方法 ? 
(4) 常用 的 数据 光滑 技术 有 哪些 ? 
(5) 简 述 分 箱 技术 的 概念 。 
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随 着 计算 机 硬件 和 软件 的 飞速 发 展 ,尤其 是 数据 库 技术 与 应 用 的 日 益 普及 ,人 类 正面 临 
着 “数据 海洋 ”的 困惑 。 如 何 有 效 地 利用 和 处 理 大 量 的 数据 即 通过 分 析 数 据 对 象 之 间 关 系 提 
取 隐 仿 在 数据 中 的 知识 ,成 为 广大 信息 技术 工作 者 所 关注 的 焦点 。 正 是 在 这 种 前 景 下 ,数据 
挖掘 技 术 应 运 而 生 。 

数据 挖掘 涉及 数据 库 技术 、 人 工 智 能 、 知 识 工程 .统计 学 、 机 器 学 习 、 优 化 计算 和 专家 系 
统 等 领域 。 从 本 质 上 来 说 ,数据 挖掘 是 智能 信息 处 理 的 一 种 过 程 或 技术 , 它 在 对 大 量 数据 实 
例 全 面 而 深刻 认识 的 基础 上 ,通过 计算 、 归 纳 和 推理 等 环节 ,从 中 抽取 普遍 的 ,一 般 的 和 本 质 
的 现象 或 特征 。 常 用 的 方法 有 决策 树 .遗传 算法 、 贝 叶 斯 网 络 、. 粗 糙 集 ,神经 网 络 等 。 其 中 决 
策 树 的 优点 是 可 理解 性 ,很 直观 ,主要 用 于 分 类 和 归纳 挖掘 ,但 在 数据 量 较 大 和 数据 复杂 的 
情况 下 ,该 算法 则 显得 力不从心 ;遗传 算法 擅长 于 数据 聚集 ,在 组 合 优化 问题 上 具有 独特 的 
优势 :粗糙 集 在 数据 挖掘 中 具有 重要 的 作用 ,常用 于 处 理 含糊 性 和 不 确定 性 的 问题 ,以 及 特 
征 归 纳 和 相关 分 析 ,运用 粗糙 集 进行 数据 预 处 理 可 以 提高 知识 发 现 的 效率 ;神经 网 络 能 够 对 
复杂 问题 进行 预测 , 它 在 商业 界 得 到 广泛 的 应 用 ,对 于 信贷 客户 识别 .股票 预测 和 证 券 市 场 
分 析 等 方面 具有 良好 的 效果 ; 贝 叶 斯 网 络 具 有 分 类 、 聚 类 、 预 测 和 因果 分 析 等 功能 ,易于 理 
解 ,预测 效果 较 好 , 面 对 大 规模 数据 时 显示 出 它 独特 的 优势 。 


7.1 概念 描述 


数据 库 中 存放 的 数据 往往 是 大 量 的 细节 数据 。 用 户 对 这 些 细节 数据 一 般 不 感 兴趣 ,他 
们 感 兴趣 的 只 是 其 中 某 类 对 象 的 特征 性 描述 或 者 几 个 类 之 间 的 区 别 性 描述 。 这 类 知识 是 对 
原始 数据 的 有 意义 的 抽象 ,属于 概念 描述 (concept description)。 除 了 上 述 两 种 类 型 的 概念 
描述 外 ,还 有 度量 中 心 趋势 度量 数据 离散 度 等 其 他 类 型 的 描 性 统计 ,这 些 高 度 概括 的 知识 
对 理解 数据 的 分 布 很 有 帮助 。 


7.1.1 概念 描述 的 生成 过 程 


概念 描述 是 对 原始 细节 数据 的 抽象 ,一 般 要 经 过 概念 分 层 、 数 据 泛 化 、 泛 化 结果 表示 等 步 

又 ,其 中 概念 分 层 是 数据 泛 化 的 基础 ,数据 泛 化 是 数据 描述 的 基础 。 对 同一 批 数据 而 言 ,如 果 
选择 泛 化 的 维 不 同 ,或 泛 化 的 层次 不 同 ,或 选择 的 汇总 函数 不 同 , 可 以 得 到 不 同 的 概念 描述 。 

安徽 概念 描述 比 原始 细节 数据 直观 。 以 茶 电脑 公司 
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的 销售 数据 为 例 , 表 7-1 描述 的 是 该 公司 2004 年 1 月 
在 江苏 、 上 海 .安徽 三 省 市 的 销售 情况 明细 数据 ,从 这 
些 明 细 数 据 不 能 直接 看 出 该 公司 在 不 同 地 区 的 计算 
图 7.1 计算 机 销售 额 饼 状 图 机 销售 业绩 对 比 。 图 7. 1 是 个 饼 形 图 , 它 是 由 这 些 数 
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据 生 成 的 关于 该 公司 销售 情况 的 一 种 概念 描述 。 通 过 该 概念 描述 可 以 很 直观 地 看 出 该 公司 
在 不 同 地 区 的 计算 机 销售 业绩 对 比 。 
表 7-1 商品 销售 情况 表 ( 明 细 ) 


品 数量 单价 销售 地 点 所 属于 省 市 销售 日 期 
打印 机 8 1200 合肥 安徽 2004-01-11 
计算 机 10 6500 合肥 安徽 2004-01-12 
计算 机 12 7500 南京 江苏 2004-01-12 
打印 机 10 2500 滁州 安徽 2004-01-12 
打印 机 7 1500 上 海 上 海 2004-01-12 
计算 机 10 6500 扬州 江苏 2004-01-12 
计算 机 8 6500 滁州 安徽 2004-01-12 


7.1.2 概念 分 层 与 数据 泛 化 


从 语义 层面 看 ,不 同 的 概念 之 间 存 在 着 层次 关系 ,这 种 层次 关系 既 可 以 是 同类 概念 之 间 
的 关系 ,如 上 下 位 关系 、 同 义 关系 、 反 义 关系 部 件 与 整体 关系 、 材 料 和 成 品 关系 、 属 性 和 宿主 
关系 ,也 可 以 是 非 同 类 概念 之 间 的 关系 ,如 属性 值 和 属性 的 指向 关系 、 事 件 和 角色 关系 。 在 
层次 关系 中 ,高 层 概念 描述 的 内 容 比 低层 概念 描述 的 内 容 更 一 般 。 

数据 库 中 原始 的 细节 数据 通常 属于 较 低 层 的 概念 ,如 果 直 接 对 这 些 细节 数据 进行 挖掘 ， 
可 能 得 到 许多 难以 理解 的 规则 。 利 用 较 高 层次 概念 蔡 换 低层 概念 可 以 减少 数据 集 的 数据 
量 。 虽 然 有 些 细节 数据 在 泛 化 过 程 中 消失 了 ,但 是 最 终 所 获得 的 泛 化 数据 可 能 更 便于 理解 、 
更 有 意义 。 而 且 , 在 较 高 层次 上 的 挖掘 ,将 产生 更 为 广泛 的 .具有 指导 意义 的 规则 和 知识 。 
因此 ,在 开展 数据 挖掘 活动 时 ,有 时 需要 将 与 挖掘 任务 相关 的 数据 集 从 较 低 的 概念 层 抽象 到 
较 高 的 概念 层 。 这 个 处 理 过 程 称 为 数据 泛 化 , 它 是 一 种 有 效 的 数据 压缩 方法 ,可 以 在 不 同 的 
概念 层次 上 进行 。 

概念 分 层 是 数据 泛 化 的 基础 , 它 定义 将 低层 概念 映射 到 高 层 概念 的 映射 序列 。 以 销售 
地 点 为 例 , 可 以 将 销售 地 点 分 成 由 高 到 低 三 个 概念 层次 , 即 国家 省、 市。 定义 映射 f,f( 南 
京 ) 三 江苏 ,f( 扬 州 ) 三 江苏 ,了 (合肥 ) 三 安徽 ,…。/ 就 是 一 个 概念 分 层 映射 ,利用 三 就 可 以 
将 低层 概念 “市 ”映射 到 高 层 概念 “省 ”。 

概念 分 层 主要 由 人 工 完成 。 非 数值 型 数据 的 概念 分 层 比 较 容 易 , 因 为 这 种 数据 的 取 值 
是 离散 的 ,通常 取 值 范围 是 固定 的 。 数 值 型 数据 的 概念 分 层 比 较 困 难 , 因 为 数据 值 更 新 频繁 
且 数据 的 可 能 取 值 范围 又 具有 多 样 性 。 数 值 型 数据 的 概念 分 层 可 以 由 人 工 完成 ,也 可 以 自 
动 完成 ,但 具有 一 定 的 随意 性 。 


7.1.3 概念 分 层 方法 
数值 型 数据 概念 分 层 的 方法 主要 有 分 箱 、 聚 类 分 析 、 基 于 炉 的 离散 化 。 
1. 分 箱 法 


分 箱 法 是 先 将 量化 属性 的 范围 划分 为 区 间 , 区 间 被 视 为 箱 ( 最 简单 的 分 箱 策略 是 等 宽 分 
“ L393 


箱 ,要 求 每 个 箱 的 区 间 长 度 相同 ) 。 然 后 使 用 箱 中 的 平均 值 或 中 值 蔡 换 箱 中 的 每 个 值 , 从 而 
将 属性 值 离散 化 ,再 将 分 箱 技术 递归 地 作用 于 结果 划分 ,产生 概念 分 层 。 


2. 聚 类 分 析 方法 


聚 类 分 析 方 法 是 将 数据 对 象 分 别 组 成 不 同 复 ,使 得 篮 间 的 相似 性 尽量 小 ,而 篮 内 的 相似 
性 尽量 大 。 每 个 簇 形成 概念 分 层 的 各 个 节点 ,而 所 有 的 节点 属于 同一 个 概念 层次 。 再 将 每 
个 徐 进 行进 一 步 划 分 ,分 成 更 小 的 子 簇 ,这 些 子 簇 形成 较 低 的 概念 层 (也 可 以 通过 合并 子 簇 
形成 较 高 的 概念 层 )。 


3. 基于 粹 的 离散 化 方法 


基于 炉 的 离散 化 方法 涉及 信息 , 炉 、 数 学 期 望 等 概念 ,本 节 先 对 这 些 概 念 作 一 点 简单 的 
解释 ,以 便 读者 能 够 理解 。 

(1) 信息 、 粹 。“ 粹 ” 原 是 统计 热力 学 中 的 概念 。 系 统 论 借 用 “ 粹 "表示 系统 中 存在 的 某 
种 无 序 状态 程度 的 量 , 而 “ 负 业 ” 则 被 认为 是 系统 组 织 程度 (或 有 序 性 ) 的 量 , 而 “信息 量 实质 
上 就 是 负 录 , 计 算 信息 量 的 公式 如 下 : 


H(X) = -> PilogP， (7-1) 


式 中 ,HH(X) 为 集合 X 的 负 坟 , 即 每 个 消息 的 平均 信息 量 ， P; 为 先 验 概率 。 
(2) 离散 型 随机 变量 的 数学 期 望 。 如 果 离 散 型 随机 变量 X 的 概率 分 布 如 下 ， 
RYN Ts ws 
PsPr, Ps “ Bs 
则 称 rp 为 X 的 数学 期 望 ,简称 期 望 或 均值 , 记 为 ECX), 即 离散 型 随机 变量 的 数学 期 望 
是 随机 变量 所 有 取 值 与 其 相对 应 的 概率 乘积 之 和 。 
(3) 信息 增益 分 析 。 设 S 是 训练 样本 的 集合 ,其 中 每 个 样本 的 类 标号 都 是 已 知 的 。 假 
定 有 m 个 类 ,集合 S 中 类 别 C; 的 记录 数 是 Ni; 个 ,i=1,2,…,m 
设 属性 A 具有 值 {a1,as.…,a,) ,属性 A 可 以 用 来 对 S 进行 分 组 ,将 S 分 为 子 集 Si， 
S:，…，,S,, 其 中 S; 包含 S 中 值 为 w 的 那些 样本 。 设 S; 包含 类 C; 的 S; 个 样本 。 根据 A 的 
这 种 划分 的 期 望 信息 称 为 属性 A 的 炉 , 为 


ICON ,Naz，…, No) 一 一 >) Nilog, 闫 C7-2) 
i=1 “” by 
一 个 给 定 的 样本 分 类 所 需 的 期 望 信息 是 
E(A) = > 型 二 To) (7-3) 
mm 
A 的 信息 增益 为 
Gain(A) = TON ,Na ,…,Nw) 一 E(A) (7-4) 
现 举例 如 下 。 


设 S 是 一 个 给 定 的 训练 样本 集 ,其 中 每 个 样本 的 类 标号 都 是 已 知 的 。 假 定 有 个 类 ， 
类 别 用 C; 表示 ,i 二 1,2,…,n。 对 数值 型 属性 A 的 基于 炉 的 离散 化 方法 如 下 。 
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(1) A 的 每 个 值 可 以 看 成 是 一 个 潜在 的 区 间 边 界 或 国 值 。 利 用 A 的 值 v 可 以 将 数据 集 
S 划分 为 分 别 满足 条 件 A 二 v 和 A 三 v 的 两 个 子 集 S1、S;。 

(2) 给 定 S, 选 择 一 个 合适 的 阅 值 ,使 得 基于 它 的 划分 对 应 的 信息 增益 最 大 。 信 息 增 
益 为 : 

TS 一 ne (- Op X logs (pi) ) 
式 中 ,py 和 ps 分 别 是 类 C; 在 S! 和 Ss 中 发 生 的 概率 , 即 
Si 与 C; 的 交集 中 的 样本 数 S; 与 C; 的 交集 中 的 样本 数 
S) 中 的 样本 数 ”名 S。 中 的 样本 数 

(3) 将 步骤 (2) 确 定 阔 值 的 过 程 递归 作用 于 所 得 到 的 每 个 划分 ,直到 满足 某 个 终止 条 件 
为 止 ( 如 属性 泛 化 阔 值 ) 。 

类 别 数据 概念 分 层 的 方法 主要 有 : 

(1) 属性 值 的 顺序 关系 通过 用 户 或 专家 指定 的 模式 来 定义 说 明 。 例 如 ,商品 销售 情况 
表 中 包含 一 个 销售 地 点 属性 ,该 属性 对 应 的 维 表 中 有 街道 .市 .省 .地 区 和 国家 这 5 个 属性 ， 
可 以 对 销售 地 点 概念 定义 如 下 的 概念 层次 : 街道 二 市 二 省 二 地 区 二 国家 。 

(2) 手工 构造 。 在 数据 仓库 中 ,有 些 属性 的 值 很 多 , 想 要 通过 穷 举 所 有 的 取 值 来 手工 进 
行 概念 分 层 是 不 切实 际 的 ,但 可 以 选择 其 中 一 部 分 有 代表 性 的 数据 进行 说 明 。 例 如 , 先 构 造 
市 和 省 两 个 概念 层次 ,再 手工 指定 南京 扬州 等 城市 属于 江苏 省 ,合肥 等 城市 属于 安徽 省 ,这 
样 就 可 以 手工 构造 一 个 概念 分 层 。 

下 面 以 证 券 交 易 系 统 中 的 FUND 表 ( 资 金 流 水 表 ) 为 例 说 明 概 念 分 层 。 

表 7-2 是 FUND 表 中 的 部 分 数据 ,记录 某 证 券 公司 2003 年 1 月 份 客户 资金 的 变动 情 
况 ,一共 12 万 多 条 记录 。 考 察 FUND 表 中 的 数据 ,可 以 将 与 资金 来 源 相 关 的 概念 分 成 三 
层 , 如 表 7-3 所 示 。 


十 


pi 


表 7-2 证 券 交 易 系统 中 的 FUND 表 ( 资 金 流 水 表 ) 数 据 
日 期 标志 收入 金额 付出 金额 余额 资金 来 源 账号 


01/22/2003 USD 23 890 0 28 298.03 | 转账 内 转 
01/22/2003 RMB 0 95 901. 86 0 销 户 支 汇 票 取款 
01/29/2003 RMB 0 19 302. 21 0 存折 冲 
01/24/2003 RMB 961. 33 0 0 存折 补 
01/29/2003 RMB 0 4342. 28 0 结 息 现金 取款 
01/29/2003 RMB 0 一 400 28 744.76 | 冲 现金 取款 
01/29/2003 RMB 一 400 0 8000. 10 | 冲 现金 存款 
01/29/2003 RMB 362.1 0 383.87 | 领 红利 
01/23/2003 RMB 0 501.21 848. 96 中 签 缴 款 
01/29/2003 RMB 0 2 1316.75 | 委托 收费 
01/29/2003 RMB 400 336 0 404 168. 44 | 融 券 
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日 期 标志 收入 金额 付出 金额 余额 资金 来 源 账号 


01/29/2003 RMB 1589. 47 0 1589. 47 银行 转 证 券 
01/29/2003 RMB 6200 0 6303. 12 现金 存款 
01/29/2003 RMB 0 2000 11 377. 98 证 券 转 银行 
01/29/2003 RMB 0 30 000 36 329. 47 现金 取款 
01/29/2003 HKD 0 12 098. 24 292. 44 买 人 股票 
01/29/2003 HKD 5486. 08 0 84 095. 35 卖 出 股票 


表 7-3 资金 流水 表 的 概念 分 层 


第 一 层 第 二 层 第 三 层 
交易 支出 买 人 股票 
支出 非 交 易 支 出 。 | 冲 现金 取款 、 存 折 冲 、 结 息 现金 取款 、 利 息 扣 税 、 委 托 收费 、 现 金 取款 、 


销 户 现金 取款 、 销 户 支 汇票 取款 ,证券 转 银行 . 支 汇 票 取款 、 中 签 缴 款 
交易 收入 领 红 利 、 融 券 、 卖 出 股票 


收入 非 交易 收入 银行 转 证 券 、 现 金 内 转 、 利 息 入 账 、 现 金 存款 转账 内 转 、 存 折 补 、 支 汇 
票 存款 、 冲 现金 存款 


7.1.4 数据 泛 化 方法 
数据 泛 化 的 方法 很 多 ,较为 常用 和 有 效 的 方法 有 数据 立方 体面 向 属性 的 归纳 等 方法 。 
1. 数据 立方 体 


数据 立方 体 是 数据 仓库 和 联机 分 析 处 理 的 核心 概念 之 一 。 数 据 立方 体 中 存放 着 预先 对 
部 分 或 所 有 维 ( 属 性 ) 的 汇总 结果 。 利 用 数据 立方 体 对 数据 泛 化 的 目的 是 把 那些 经 常 被 查询 
到 的 、 运 算 开销 较 高 的 计算 预先 执行 ,并 将 执行 结果 存储 到 数据 立方 体 中 ,以 便于 知识 发 现 、 
决策 支持 以 及 其 他 应 用 。 数 据 立方 体 的 维 数 不 限 定 为 3, 它 可 以 为 z(z 二 1) 。 

数据 立方 体 由 维和 事实 组 成 。 维 是 几何 学 及 空间 理论 的 基本 概念 , 它 把 一 个 事物 的 特 
征 完整 .准确 、 无 宛 余地 描述 出 来 。 维 描述 的 特征 应 该 恰如其分 ,例如 ,宏观 空间 的 一 个 点 ， 
用 两 个 变量 无 法 描述 ,用 4 个 变量 会 造成 混乱 ,因此 只 能 用 3 个 变量 。 

数据 仓库 中 的 维 表示 的 是 事实 的 基本 特征 ,每 个 维 都 与 一 个 维 表 相 关联 , 表 中 的 字段 称 
为 属性 。 例 如 ,商品 的 销售 涉及 销售 时 间 销售 地 点 .销售 部 门 和 产品 类 型 等 基本 特征 。 这 
些 基本 特征 可 以 进一步 用 多 个 属性 进行 描述 ,如 产品 类 型 可 以 用 产品 名 .产品 商标 和 产品 型 
号 等 属性 进行 具体 描述 。 维 表 中 的 属性 可 以 由 用 户 或 专家 设 定 , 或 者 根据 数据 分 布 自动 产 
生 和 调整 。 因 此 ,在 创建 一 个 数据 仓库 SALES 记录 商品 的 销售 情况 时 ,可 以 定义 四 个 维 
time,item、branch location 来 记录 商品 的 销售 时 间 、 销 售 的 商品 、 销 售 商 品 的 分 店 和 地 点 ， 
可 以 定义 item 的 维 表 来 进一步 描述 item 维 ,item 的 维 表 中 包含 属性 item_name、brand 和 
type, 分 别 表示 产品 名 .产品 商标 .产品 型 号 。 

数据 立方 体 是 一 个 数据 集合 ,通常 由 数据 仓库 的 子 集 构 造 , 并 组 织 和 汇总 成 一 个 由 一 组 
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维度 和 度量 值 定义 的 多 维 结构 。 事 实 表 是 数据 立方 体 中 度量 值 的 源 , 维 表 是 数据 立方 体 中 
维度 的 源 ,也 是 进一步 泛 化 数据 立方 体 的 依据 。 度 量 值 在 数据 立方 体内 ,是 该 数据 立方 体 对 
应 的 事实 表 中 某 数值 型 字段 的 汇总 值 或 组 中 成 员 的 计数 值 。 

图 7. 2 是 一 个 三 维 数据 立方 体 , 它 从 时 间 、 公 司 分 支 和 商品 类 型 三 个 角度 ( 维 ) 描 述 公司 
的 销售 额 ,每 个 小 立方 块 (最 小 单元 ) 对 应 的 数值 是 该 公司 某 个 分 部 在 某 个 年 度 对 某 个 商品 
的 销售 总 额 。 在 数据 立方 体 中 ,每 个 维 都 对 应 一 个 概念 层次 树 ,以 便 能 对 销售 额 进行 多 层次 


的 泛 化 分 析 。 
商品 C 
商品 维和 吕 B 
商品 A 


分 部 4 


部 介 分 部 3 | 
门 | 
维 | | 分 部 2 | 


分 部 1 


1999 2000 2001 2002 2003 
时 间 维 
Ey 


图 7.2 三 维 数据 立方 体 


依据 概念 层次 树 可 以 建立 与 事实 表 对 应 的 不 同 层次 的 数据 立方 体 。 在 最 低层 次 所 建立 
的 数据 立方 体 称 为 基 立 方 体 (base cuboid) ,而 在 最 高 层次 所 建立 的 数据 立方 体 称 为 顶 立 方 
体 (apex cuboid) 。 基 立方 体 对 事实 数据 的 泛 化 程度 最 低 ,最 接近 原始 数据 。 项 立方 体 对 事 
实 泛 化 程度 最 高 ,整个 立方 体 只 有 一 个 立方 块 。 图 7. 2 对 应 的 顶 立 方 体 代 表 整 个 公司 近 几 
年 .所 有 分 支 .所 有 类 型 商品 的 销售 总 额 , 只 有 一 个 数值 。 显 然 ,每 一 层次 的 数据 立方 都 是 对 
其 低 一 层 数据 的 进一步 抽象 。 

对 维 数据 立方 体 可 以 用 一 个 包含 ”十 1 字段 的 表 7-4 三 维 数据 立方 体 对 应 的 二 维 表 
一 表示 ,整个 表 可 上 L 十 要 字 - > 个 
es 二 ee 分 部 1 | 商品 A | 1999 | 490 000 
据 就 是 这 个 维 ,其 中 每 个 维 对 应 一 个 字段 ,汇总 字 。 分 部 1 | 商品 B | 1999 | 510 000 
段 对 应 一 个 字段 。 例 如 ,图 7. 2 描述 的 三 维 数据 立 。 分 部 1 | 商品 C | 1999 | 180 000 
方 体 可 以 用 二 维 表 表 示 ( 如 表 7-4 所 示 )。 : : : : 

数据 立方 体 的 维 数 不 限定 为 3, 它 可 以 为 mw(z 盖 分 部 2 | 商品 A | 1999 | 600 000 
1)。 任 意 ， 维 的 数据 立方 体 可 以 用 一 个 一 1 维 的 一 i 
数据 立方 体 序列 来 表示 。 


2. 面向 属性 的 归纳 


面向 属性 的 归纳 方法 是 一 种 基于 归纳 的 联机 数据 分 析 技 术 。 这 种 方法 的 基本 思想 是 : 

首先 采用 类 似 SQL 的 数据 挖掘 查询 语言 对 数据 库 进 行 数据 挖掘 查询 来 收集 与 任务 相关 的 

数据 ;然后 通过 考察 与 任务 相关 的 数据 中 每 个 属性 的 不 同 值 的 个 数 , 对 数据 进行 泛 化 , 泛 化 
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的 方式 可 以 是 属性 删除 ,也 可 以 是 属性 泛 化 ;接着 使 用 聚集 函数 作用 于 泛 化 后 的 数据 来 合并 
相等 的 广义 元 组 ,并 累计 它们 对 应 的 计数 值 ;最 后 ,将 经 过 数据 压缩 后 得 到 的 广义 关系 映射 
到 不 同 的 形式 ,如 图 形 、 表 或 者 规则 。 

面向 属性 归纳 的 基本 方法 有 数据 聚焦 .属性 删除 和 属性 泛 化 等 。 

(1) 数据 聚焦 。 选 择 和 当前 分 析 相 关 的 数据 ,包括 属性 和 维 。 选 择 相关 的 数据 集 不 仅 
可 以 提高 挖掘 效果 ,而且 能 够 产生 更 有 意义 的 规则 。 对 于 用 户 而 言 , 选 择 相关 维和 属性 可 能 
是 件 困难 的 事 , 他 们 可 能 会 对 具体 属性 个 数 的 选择 把 握 不 准 。 属 性 过 少 会 影响 到 概念 分 层 、 
从 低层 概念 到 高 层 概念 的 泛 化 ,属性 过 多 会 产生 不 好 的 概念 描述 。 为 了 避免 这 些 情况 的 出 
现 ,可 以 从 描述 过 程 中 滤 去 不 相关 的 或 弱 相 关 的 属性 。 

(2) 属性 删除 。 如 果 某 个 属性 包含 大 量 的 不 同 值 ,那么 ,在 下 列 两 种 情况 下 ,该 属性 就 
应 该 被 删除 : 其 一 ,在 该 属性 上 没有 泛 化 操作 ;其 二 , 它 的 较 高 层 概 念 已 经 有 其 他 属性 表示 。 
在 第 一 种 情况 下 ,如 果 保 留 该 属性 ,就 会 产生 不 简洁 的 规则 ;在 第 二 种 情况 下 ,删除 该 属性 等 
价 于 使 用 了 泛 化 操作 。 

(3) 属性 泛 化 。 如 果 某 个 属性 包含 大 量 的 不 同 值 , 同 时 在 该 属性 上 有 泛 化 操作 符 , 则 运 
用 该 操作 符 进 行 泛 化 。 这 样 做 的 目的 是 使 得 到 的 规则 能 够 涵盖 更 多 的 原始 数据 元 组 。 这 里 
有 一 个 隐 含 的 问题 , 即 什么 情况 下 认为 “属性 具有 大 量 不 同 的 值 ”。 这 取决 于 属性 或 应 用 。 
如 果 属 性 泛 化 的 过 高 ,会 导致 过 分 泛 化 ;如 果 属 性 不 能 在 足够 高 的 层次 泛 化 ,会 导致 泛 化 不 
足 。 过 分 泛 化 和 泛 化 不 足 都 会 使 产生 的 规则 包含 的 信息 量 不 够 。 因 此 ,需要 对 属性 泛 化 过 
程 进行 有 效 的 控制 。 

常用 的 对 属性 泛 化 过 程 进 行 控 制 的 方法 有 两 种 : 属性 泛 化 阔 值 控制 和 泛 化 关系 闪 值 控制 。 

(1) 属性 泛 化 阔 值 控制 。 属 性 泛 化 阔 值 规定 属性 不 同 值 的 个 数 可 以 允许 的 上 限 。 可 以 
对 每 个 属性 设置 一 个 阔 值 ,也 可 以 对 所 有 的 属性 设置 同一 个 阔 值 。 通 常情 况 下 ,数据 挖掘 系 
统 都 有 一 个 默认 的 属性 泛 化 阔 值 , 取 值 范围 为 2 一 8。 属 性 泛 化 阔 值 也 可 以 由 用 户 或 专家 指 
定 或 调整 ,加 大 阔 值 可 以 降低 泛 化 的 层次 , 减 小 阔 值 可 以 提高 泛 化 的 层次 。 

(2) 泛 化 关系 阔 值 控制 。 泛 化 关系 阔 值 规定 泛 化 关系 中 不 同 元 组 的 个 数 可 以 允许 的 上 
限 。 通 常情 况 下 ,数据 挖掘 系统 都 会 预 设 一 个 默认 的 泛 化 关系 阔 值 , 取 值 范围 为 10 一 30。 
泛 化 关系 阔 值 也 可 以 由 用 户 或 专家 指定 或 调整 ,加 大 阔 值 可 以 降低 泛 化 的 层次 , 减 小 阔 值 可 
以 提高 泛 化 的 层次 。 

在 实际 操作 时 ,可 以 顺序 使 用 属性 泛 化 阔 值 控制 和 泛 化 关系 阔 值 控制 , 先 使 用 属性 泛 化 
阔 值 控制 ,后 使 用 泛 化 关系 阔 值 控制 。 这 两 种 阔 值 都 应 该 允许 由 用 户 进行 调整 。 

面向 属性 归纳 的 基本 算法 可 以 分 为 4 个 步骤 。 

@ 利用 挖掘 语句 查询 数据 库 , 从 关系 数据 库 中 得 到 相关 数据 ,形成 初始 关系 表 W 。 

@ 统计 不 同属 性 所 含有 的 不 同 值 的 个 数 ,并 根据 给 定 的 或 默认 的 属性 泛 化 阔 值 ,决定 
是 丢弃 该 属性 还 是 对 其 进行 汇总 。 

@ 根据 上 一 步 的 计算 结果 ,将 属性 泛 化 到 相应 的 层次 ,计算 汇总 值 ,得 到 主 泛 化 关系 P 
(一 个 二 维 表 )。 这 一 步 可 以 采取 这 样 的 方法 实现 : 对 于 每 个 泛 化 后 的 元 组 ,通过 二 分 检索 ， 
检查 它 是 否 已 经 存在 于 主 关系 PP 中 ,如 果 该 元 组 已 经 存在 于 PP 中 , 则 简单 地 增加 它 的 计数 
值 , 并 处 理 相应 的 聚集 值 ; 否 则 ,将 它 插 入 P。 
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@ 泛 化 结果 的 表示 。 包 括 泛 化 关系 .交叉 表 数据 立方 体 等 多 种 形式 。 


3. 面向 属性 归纳 的 数据 立方 体 


在 进行 数据 泛 化 时 ,如 果 将 数据 立方 体 方法 和 面向 属性 的 归纳 方法 集合 起 来 ,可 以 保证 
快速 响应 以 及 从 不 同 角度 .不同 抽象 层次 上 查看 数据 。 

面向 属性 归纳 的 数据 立方 体 的 实现 可 以 采用 两 种 方法 。 

(1) 当 任务 相关 的 数据 粒度 与 预定 义 的 数据 立方 体 匹 配 ,并 且 任 务 相 关 的 数据 量 相当 
大 时 ,可 以 使 用 预定 义 的 数据 立方 体 。 

(2) 当 任务 相关 的 数据 集 比 较 特 殊 ,不 能 与 任何 预定 义 的 数据 立方 体 匹 配 , 或 者 任务 相 
关 的 数据 集 不 太 大 时 ,可 以 对 给 定 的 数据 挖掘 查询 临时 构造 数据 立方 体 。 

对 给 定 的 数据 动态 创建 数据 立方 体 ,便于 有 效 地 下 钻 操作 ,但 可 能 会 增加 响应 时 间 。 折 
中 的 解决 方法 是 计算 并 存储 数据 立方 体 结构 的 “ 主 次 ”关系 ,其 泛 化 关系 的 每 个 维 层 次 比 主 
关系 的 层次 稍 深 一 些 。 使 用 预定 义 的 数据 立方 体 涉及 计算 的 花费 和 额外 的 存储 空间 等 问 
题 ,需要 考虑 计算 /存储 开销 和 访问 速度 之 间 的 折 中 。 


7.1.5 泛 化 的 表示 


通过 泛 化 处 理 可 以 得 到 原始 数据 集 的 泛 化 关系 。 通 常 ,直接 向 用 户 提供 泛 化 关系 作为 
最 终 的 概念 描述 ,有 时 也 以 交叉 表 、 饼 状 图 .柱状 图 .曲线 .数据 立方 体 或 量化 规则 等 更 加 直 
观 或 抽象 的 形式 描述 泛 化 结果 。 表 7-5 是 某 企 业 2003 年 销售 数据 的 泛 化 关系 。 本 节 将 以 
它 为 例 介绍 这 几 种 泛 化 的 表示 方式 。 
表 7-5 2003 年 销售 数据 的 泛 化 关系 


销售 地 点 商品 类 型 销售 额 / 百 美元 销售 总 数 
亚洲 电 冰 箱 18 310 
欧洲 电 冰 箱 13 330 
美洲 电 冰 箱 32 430 
亚洲 空调 130 800 

空调 170 1300 


空调 


250 


2000 


交叉 表 类 似 于 电子 数据 表 。 在 二 维 交叉 表 中 ,每 行 显示 一 个 属性 的 值 ,每 列 显示 另外 一 个 
属性 的 值 。 由 泛 化 关系 可 以 方便 地 映射 到 交叉 表 。 表 7-6 是 由 表 7-5 转化 成 的 三 维 交叉 表 。 


表 7-6 2003 年 销售 的 三 维 交叉 表 


商品 类 型 电 冰 箱 空调 电 冰 箱 和 空调 
销售 
销售 地 点 售 情 况 | 销售 额 | 销售 总 数 | 销售 额 | 销售 总 数 | 销售 额 | 销售 总 数 
亚洲 18 310 130 800 148 1110 
欧洲 13 330 170 1300 183 1630 
美洲 32 420 250 2000 282 2420 
所 有 地 区 63 1060 550 4100 613 5160 
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用 图 形 方式 表示 泛 化 数据 比较 形象 和 直观 。 用 数据 立方 体 表 示 泛 化 数据 便于 对 泛 化 数 
据 进行 上 卷 . 下 钻 、 切 片 和 切 块 等 操作 。 通 过 使 用 数据 立方 体 浏览 器 ,点击 鼠 标 , 就 可 以 很 方 
便 地 完成 上 述 各 种 操作 。 

泛 化 关系 也 可 以 用 带 有 量化 信息 的 逻辑 规则 表示 ,这 种 逻辑 规则 称 为 量化 规则 。 待 特 
征 化 的 (或 由 规则 描述 的 ?对象 类 称 为 目标 类 。 对 于 任 一 描述 目标 类 的 泛 化 元 组 , 它 的 量化 
信息 等 于 该 泛 化 元 组 对 应 的 记录 总 数 与 泛 化 关系 中 所 有 泛 化 元 组 对 应 的 记录 总 数 的 商 。 
表 7-6 中 电 冰 箱 商品 对 应 的 量化 规则 可 以 表示 为 : 

VitenGg= ' 电 冰箱 一 location 四 = ' 亚 洲 '[0.29]V location 四 = "欧洲 "0.31]V 

location (= "美洲 "[0.40] 


7.1.6 属性 相关 分 析 


属性 相关 分 析 的 作用 是 过 滤 不 相关 的 或 弱 相 关 的 属性 , 它 的 基本 思想 是 计算 某 种 度量 ， 
用 于 量化 属性 与 给 定 类 或 概念 的 相关 性 。 常 用 的 度量 包括 信息 增益 、Gini 索引 、 不 确定 性 
和 相关 系数 。 

在 实际 应 用 中 ,人 们 计算 每 个 属性 的 信息 增益 ,然后 用 得 到 的 信息 增益 值 对 属性 进行 排 
序 。 信 息 增益 值 较 大 的 属性 被 认为 与 任务 的 相关 程度 比较 高 。 

概念 描述 的 属性 相关 分 析 的 执行 步骤 如 下 。 

@ 数据 收集 。 通 过 数据 挖掘 查询 ,收集 目标 类 和 对 比 类 的 数据 。 

@ 使 用 保守 的 面向 属性 的 归纳 进行 预 相关 分 析 。 删 除 或 泛 化 具有 大 量 不 同 值 的 属性 。 

@ 使 用 选 定 的 相关 分 析 度 量 删 除 不 相关 的 或 弱 相 关 的 属性 。 根 据 计 算 的 属性 与 挖掘 
任务 的 相关 性 对 属性 进行 排序 ,删除 与 类 描述 不 相关 的 或 弱 相 关 的 属性 。 

@ 使 用 面向 对 象 的 归纳 产生 概念 描述 。 


7.1.7 区 别 性 描述 


在 许多 实际 应 用 中 ,用 户 可 能 会 对 多 个 不 同类 别 的 数据 集 进行 对 比 归纳 ,以 获得 概 
念 对 比 描述 知识 。 这 种 概念 对 比 描述 知识 是 基于 对 比 数据 集 挖掘 出 目标 数据 集 的 概念 
描述 。 需 要 指出 的 是 目标 数据 集 与 对 比 数据 集 应 该 包含 相同 属性 ( 维 ) ,以 确保 它们 是 可 
比 的。 例如 ,雇员 ,地址 和 商品 这 三 个 数据 集 就 是 不 可 比 的 ,而 过 去 三 年 的 销售 额 则 是 可 
以 比较 的 。 

前 面 介绍 了 对 多 层次 单一 类 别 数据 集 进 行 概要 总 结 并 获得 其 概念 描述 的 具体 方法 ,这 
一 方法 可 以 扩展 到 对 多 个 不 同类 别 ( 可 比 ) 数 据 集 进行 概念 对 比 描述 的 处 理 。 需 要 注意 的 
是 ,为 有 效 地 进行 概念 对 比 归纳 ,需要 对 所 有 (参加 挖掘 的 ) 数 据 集 属性 同时 进行 泛 化 操作 ， 
以 确保 这 些 数据 集中 的 属性 均 被 泛 化 到 同一 抽象 层次 。 它 们 需 同 时 泛 化 到 同一 层次 。 当 
然 , 如 果 用 户 能 够 选择 不 同 数据 集 属性 及 其 不 同 泛 化 层次 , 那 将 是 最 理想 的 。 

特征 性 描述 和 区 别 性 描述 是 形成 类 描述 的 两 个 方面 。 在 许多 应 用 中 ,人 们 对 类 的 区 分 
更 感 兴趣 。 区 别 性 描述 的 实现 方法 与 特征 性 描述 的 实现 方法 类 似 。 区 别 性 描述 的 实现 一 般 
过 程 如 下 。 
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(1) 通过 查询 处 理 收集 数据 库 中 的 相关 数据 集 , 并 将 它 划分 为 一 个 目标 类 和 一 个 或 多 
个 比较 类 。 注 意 , 目 标 类 和 比较 类 必须 是 可 以 比较 的 。 

(2) 进行 相关 性 分 析 ,发现 最 能 体现 类 别 之 间 差 异 的 属性 。 

(3) 将 不 同类 别 的 数据 泛 化 到 相同 的 层次 。 

(4) 用 相同 层次 的 描述 对 泛 化 后 得 到 的 元 组 进行 比较 。 

(5) 对 于 每 个 泛 化 后 得 到 的 元 组 ,展现 其 描述 和 支持 度 , 对 比 这 两 个 衡量 标准 ,并 将 其 
中 差异 很 大 的 元 组 特别 显示 出 来 。 


7.2 关联 规则 


关联 规则 挖掘 是 数据 挖掘 研究 的 一 个 重要 分 支 ,关联 规则 是 数据 挖掘 的 众多 知识 类 型 
中 最 为 典型 的 一 种 。 该 问题 于 1993 年 由 Agrawal 等 在 对 市 场 购物 篮 问题 进行 分 析 时 首次 
提出 用 以 发 现 商 品 销售 中 的 顾客 购买 模式 ,以 后 诸多 的 研究 人 员 对 关联 规则 的 挖掘 问题 进 
行 了 大 量 的 研究 。 他 们 的 工作 包括 对 原 有 的 算法 进行 优化 ,如 引入 随机 采样 ,并行 的 思想 
等 ,以 提高 算法 挖掘 规则 的 效率 ,对 关联 规则 的 应 用 进行 推广 。 


7.2.1 关联 规则 相关 概念 


设 I={ii,is，… ,inm}) 是 项 目的 集合 ,任务 相关 的 数据 库 DD= {4 ,ts,…,t,), 其 中 每 一 个 
交易 t; 表示 DD 的 第 j 个 交易 ,其 是 由 了 中 的 某 些 项 目 所 构成 的 集合 , 即 t; I。 每 一 个 交易 
都 有 一 个 标识 符 TID。 某 个 交易 t; 包含 X , 指 的 就 是 对 工 的 子 集 X, 有 XS。 关 联 规则 是 
形 如 “X=Y” 的 蕴含 式 , 其 中 XSI,YSIT, 并 且 XN 站 Y= 。X 称 做 规则 的 前 提 或 前 项 ,Y 为 
结果 或 后 项 。 

定义 7.1( 关 联 规则 的 支持 度 ) 

关联 规则 A=>B 在 事务 集 D 中 成 立 , 具 有 支持 度 ;, 其 中 ; 是 事务 同时 包含 A 和 B 的 百 
分 比 , 记 为 Support(AUB), 即 
”包含 A 和 B 的 事务 数 


Support(A=>B) = Support(A U B)= P(AUB) (7-5) 


定义 7.2( 关 联 规则 的 置信 度 ) 
关联 规则 A 二 B 的 置信 度 是 事务 集 D 中 包含 A 事务 同时 也 包含 B 事务 的 百分比 , 记 为 
Confidence(AUB), 即 
包含 A 和 B 的 事务 数 
包含 A 事务 数 


Confidence(A U B) = P(B | A) (7-6) 


定义 7.3( 项 与 项 集 ) 
数据 库 中 不 可 分 割 的 最 小 单位 信息 称 为 项 ,一 般 用 i 表示。 项 的 集合 称 为 项 集 ,一 般 用 
I 表示。 例如 ,I 二 (i,is，… si) 是 项 集 。 包含 个 项 目的 项 集 称 为 项 集 。 集 合 { 面 包 , 牛 
奶 ,黄油 ,啤酒 ,尿布 ) 是 一 个 5 项 集 。 
定义 7.4( 项 集 的 频率 ) 
项 集 的 频率 是 包含 项 集 的 事务 数 ,简称 为 项 集 的 频率 (支持 计数 或 计数 )。 
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定义 7.5( 频 繁 项 集 ) 

如 果 项 集 出 现 的 频率 大 于 或 等 于 最 小 支持 计数 , 即 满足 最 小 支持 度 阔 值 , 则 称 它 为 频繁 
项 集 (frequent itemset)。 含 有 上 个 项 的 频 集 称 为 & 频 集 ,通常 记 为 Li。 

定义 7.6( 强 关联 规则 ) 

同时 满足 最 小 支持 度 姜 值 (min_support) 和 最 小 置信 和 度 阅 值 (min_conf) 的 规则 称 做 强 
关联 规则 。 


7.2.2 关联 规则 挖掘 步骤 


一 种 原始 的 关联 规则 挖掘 方法 是 : 计算 所 有 规则 的 支持 度 和 置信 度 ,再 删 去 支持 度 或 
置信 和 度 不 满足 国 值 的 规则 。 因 为 从 数据 集中 提取 的 规则 的 数目 是 指数 级 ,这 种 方法 的 计算 
任务 繁重 ,过 高 的 代价 使 得 它 在 很 多 场合 下 变 得 不 可 行 。 研 究 者 通过 对 关联 规则 挖掘 的 研 
究 发 现 ,很 多 规则 是 没有 必要 计算 的 。 只 计算 可 能 满足 要 求 的 规则 ,可 以 节省 大 量 的 时 间 。 
目前 通常 采用 一 种 策略 是 ,将 关联 规则 挖掘 任务 分 解 为 如 下 两 个 主要 的 子 任务 : 

Q@ 生成 频繁 项 集 ,其 任务 是 生成 所 有 满足 最 小 支持 度 阔 值 的 项 集 , 这 些 项 集 被 称 做 频 
繁 项 集 (frequent itemset) 。 


@ 生成 规则 ,其 任务 是 从 上 一 步 生成 的 频繁 项 集中 提取 所 有 高 置信 和 度 的 规则 。 
1. 生成 频繁 项 集 


通常 用 格 结构 (lattice structure) 来 表示 所 有 可 能 的 项 集 。 一 个 包含 个 项 的 项 集 最 多 
可 能 产生 (2 一 1) 个 非 空 频繁 项 集 。 由 于 在 许多 实际 应 用 中 A 的 值 可 能 非常 大 ,需要 查找 的 
项 集 搜索 空间 可 能 是 指数 规模 的 。 

一 种 原始 的 频繁 项 集 生成 方法 是 确定 格 结构 中 每 个 候选 项 集 (candidate itemset) 的 支 
持 度 计 数 。 为 了 完成 这 一 任务 ,必须 将 每 个 候选 项 集 与 每 个 事务 进行 比较 。 如 果 候选 项 集 
包含 在 事务 中 , 则 给 候选 项 集 的 支持 度 计数 加 1。 这 种 方法 的 开销 可 能 非常 大 ,假设 N 是 事 
务 个 数 ,M 二 2* 一 1 是 候选 项 集 数 ,W 是 事务 的 最 大 宽度 , 它 需 要 进行 O(NMW) 次 比较 。 

有 几 种 方法 可 以 降低 产生 频繁 项 集 的 计算 复杂 度 。 

(1) 减少 候选 项 集 的 数目 M。 

(2) 减少 比较 次 数 。 可 以 使 用 更 高 级 的 数据 结构 ,用 来 存储 候选 项 集 或 者 压缩 数据 集 ， 
以 此 来 替代 将 每 个 候选 项 集 与 每 个 事务 相 匹配 ,从 而 可 以 减少 比较 次 数 。 


2. 生成 规则 


频繁 项 集 是 满足 支持 度 阔 值 的 项 集 , 对 这 些 项 集 再 增加 置信 度 的 要 求 , 即 可 从 数据 集中 
挖掘 出 满足 要 求 的 关联 规则 。 关 联 规 则 可 以 这 样 来 从 频繁 项 集中 提取 : 将 一 个 频繁 项 集 
Y 划分 成 两 个 非 空 的 子 集 X 和 YY 一 X, 所 有 满足 置信 和 度 阔 值 的 规则 X=Y 一 X 即 是 所 要 生 
成 的 规则 。 因 为 这 些 规则 都 是 由 频繁 项 集 产 生 的 ,所 以 它们 必然 满足 支持 度 阔 值 。 排 除 前 
件 或 后 件 为 空 集 的 规则 ,每 个 频繁 & 项 集 能 够 产生 多 达 2 一 2 个 关联 规则 。 

计算 关联 规则 的 置信 度 并 不 需要 再 次 扫描 事务 数据 集 。 例 如 对 于 规则 {A,B} 一 C, 它 
是 由 频繁 项 集 X=={A,B,C) 产 生 的 。 该 规则 的 置信 和 度 为 Count{A,B,C}/Count{A,B}。 因 
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为 {A,B,C) 是 频繁 的 ,支持 度 的 反 单 性 确保 项 集 {A,B) 也 一 定 是 频繁 的 。 由 于 这 两 个 项 集 
的 支持 度 计数 已 经 在 频繁 项 集 产生 时 得 到 ,因此 不 必 再 扫描 整个 数据 集 。 

相对 频繁 项 集 生 成 而 言 , 规 则 的 生成 较为 简单 和 直观 。 通 常 , 生 成 频繁 项 集 所 需 的 计算 
开销 远大 于 生成 规则 所 需 的 计算 开销 。 目 前 ,对 关联 规则 挖掘 的 研究 主要 集中 在 提高 频繁 
项 集 生成 的 效率 上 。 


7.2.3 关联 规则 分 类 


从 不 同 的 角度 考察 ,关联 规则 有 多 种 分 类 。 

(1) 根据 项 对 应 属性 的 数据 类 型 ,关联 规则 可 以 分 为 布尔 型 和 数值 型 。 布尔 型 关联 规 
则 处 理 的 属性 的 值 都 是 种 类 化 的 , 它 显示 了 不 同属 性 之 间 的 关系 ;而 数值 型 关联 规则 包含 对 
数值 型 属性 的 处 理 。 

buys(x,"Oracle 数据 库 ") ,buys(x," 数 据 挖掘 原理 与 技术 ") 一 buys(x," 数 据 挖掘 工 
具 ")[0.3,0.7] 是 一 个 布尔 型 关联 规则 , 它 只 涉及 一 个 种 类 化 的 字段 buys。 该 规则 的 含义 
是 购买 Oracle 数据 库 》 和 《数据 挖掘 原理 与 技术 》 两 本 书 的 人 有 购买 4 数据 挖掘 工具 》 一 书 
的 倾向 ,其 支持 度 为 0.3, 可 信 度 为 0.7。 

age(x,"25..35") ,income(x,"3000..4000") 一 buys(x, "计算 机 ")[L0. 2,0. 8] 是 一 个 数值 
型 关联 规则 , 它 只 涉及 age ,income ,buys 这 三 个 字段 ,其 中 age、\income 为 数值 型 属性 。 该 
规则 的 含义 是 年 龄 介 于 25 一 35 之 间 的 .月 收入 介 于 3000 一 4000 元 之 间 的 人 购买 计算 机 的 
支持 度 为 0.2, 可 信 度 为 0. 8。 

(2) 根据 规则 中 数据 的 抽象 层次 ,可 以 分 为 单 层 关联 规则 和 多 层 关联 规则 。 在 单 层 关 
联 规则 中 ,没有 考虑 属性 的 现实 数据 所 具有 的 层次 性 ;而 在 多 层 关联 规则 中 , 则 充分 考虑 了 
属性 的 层次 性 。 

IBM 台式 机 一 Sony 打印 机 是 一 个 细节 数据 上 的 单 层 关 联 规则 , 它 表 示 购 买 IBM 台式 
机 的 顾客 有 购买 Sony 打印 机 倾向 。 台 式 机 一 Sony 打印 机 则 是 一 个 较 高 层次 和 细节 层次 之 
间 的 多 层 关联 规则 。 

(3) 根据 规则 中 涉及 到 的 数据 的 维 数 , 关 联 规则 可 以 分 为 单 维 的 和 多 维 的 。 单 维 的 关 
联 规则 只 涉及 数据 的 一 个 维 , 多 维 的 关联 规则 要 处 理 的 数据 涉及 多 个 维 。 

buys(x,"Oracle 数据 库 ") ,buys(Cx," 数 据 挖掘 原理 与 技术 ") 一 buys(Cx," 数 据 挖掘 工 
具 ")[0. 3,0.7] 是 一 个 单 维 关联 规则 ,只 涉及 商品 维 ,而 age(x,"25.. 35"),income(x， 
"3000..4000") 一 buys(x, "计算 机 ")[0.2,0. 8] 是 一 个 三 维 关联 规则 ,涉及 商品 维 、 年 龄 维 、 
收入 维 。 

(4) 关联 并 不 一 定 意 味 着 相关 或 因果 ,有 时 需要 识别 不 同 的 项 是 否 相 关 ,是否 存在 因果 
关系 。 根 据 关联 规则 的 各 种 扩展 ,可 分 为 相关 分 析 、 最 大 模式 和 频繁 闭 项 集 、 添 加 约束 等 
类 型 。 

多 层 、 多 维 的 数量 型 关联 规则 是 前 三 种 规则 的 复合 体 ,挖掘 的 难度 比较 大 。 挖 掘 这 些 类 
型 的 关联 规则 , 现 有 的 算法 基本 上 还 是 基于 支持 度 -可 信和 度 框架 ,不 同 算法 之 间 的 差异 主要 
体现 在 对 数量 型 字段 离散 化 的 处 理 , 以 及 如 何 更 加 快速 地 找 出 所 有 频繁 项 集 。 有 的 算法 先 
将 数量 型 字段 离散 化 ,然后 在 此 基础 上 寻找 频繁 项 集 .寻找 关联 规则 ;有 些 算 法 将 数量 型 字 
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段 离散 化 过 程 与 寻找 频繁 项 集 的 过 程 集合 在 一 起 。 
7.2.4 关联 规则 的 算法 


在 关联 规则 挖掘 算法 的 研究 中 ,主要 集中 于 频繁 项 集 控 掘 的 算法 研究 。 在 众多 算法 中 ， 
以 Agrawal 等 人 在 1994 年 提出 的 Apriori 算法 最 为 著名 ,该 算法 首次 使 关联 规则 理论 可 以 
实际 地 应 用 到 现实 中 。 该 算法 是 挖掘 布尔 型 关联 规则 的 算法 中 最 典型 和 有 影响 力 的 ,现在 
的 大 部 分 算法 都 是 对 Apriori 算法 的 扩展 或 改进 。 本 节 学 习 关 联 规则 挖掘 中 常用 的 算法 : 
Apriori 算法 `FP-growth 算法 。 


1. Apriori 算法 


Apriori 算法 基本 思想 第 一 步 是 先 扫描 数据 库 一 遍 , 通 过 计算 每 个 1 项 集 的 支持 度 ,得 
到 工 ;第 二 步 就 是 用 反复 迭代 的 方式 , 找 出  ,L: ,…:, 直 到 不 再 能 再 找到 新 的 频繁 项 集 时 ， 
停止 迭代 。 在 搜索 Li,(k== 一 2,3,…) 时 ,是 用 LL,-1 自 连接 的 方法 产生 的 候选 集 Ce, 先 用 一 
定 的 前 枝 策略 裁剪 候选 集 ;再 扫描 数据 库 , 计 算 Cs 的 支持 度 , 删 除 掉 非 频繁 项 集 , 便 得 到 了 
L。Apriori 算法 有 两 个 重要 的 定理 依据 。 

定理 7.1 频繁 项 集 的 所 有 非 空子 集 都 是 频繁 项 目 集 。 

数学 形式 为 : 设 [二 全,,…} 为 数据 库 中 所 有 项 构成 的 项 集 ,U 一 人 Ps， 》, 显 
然 UST, 又 有 PSU 且 P 关 入 ,在 给 定数 据 库 事 务 集 T 和 min_support 条 件 下 , 若 U 是 频繁 
项 集 ,P 也 是 频繁 项 集 。 

证 明 : 设 事务 数据 库 工 中 所 有 的 交易 数 为 S,T 中 支持 U 的 交易 数 为 Su,T 中 支持 
PP 的 交易 数 为 Se。 

因为 PEU, 且 P 夭 人 

所 以 Se 三 Su 


所 以 守之 知 , 即 Support(P) 宇 Support(U) 


又 因为 U 是 频繁 项 集 , 即 Support(U) 之 min_support 

所 以 Support(P) 宇 min_support 

所 以 PP 一 定 是 频繁 项 集 

得 证 。 

根据 数学 逻辑 ,定理 7.1 的 逆 否 命题 也 是 成 立 的 , 即 下 面 的 定理 7. 2。 

定理 7.2 非 频 繁 项 集 的 超 集 一 定 是 非 频繁 项 集 ( 如 果 PCSU,P 是 U 的 子 集 ,UU 是 P 
的 超 集 ) 。 

数学 形式 为 : 设 [一 人 ,is，…) 为 数据 库 中 所 有 项 构成 的 项 集 ,U 二 {i aa ,显然 
UST, 又 有 PSU 且 P 了 名 ,在 给 定数 据 库 事务 集 T 和 最 小 支持 度 min_support 条 件 下 , 若 
P 不 是 频繁 项 集 ,U 一 定 不 是 频繁 项 集 。 

证 明 : 设 事务 数据 库 工 中 所 有 的 交易 数 为 S,T 中 支持 U 的 交易 数 为 Su,T 中 支持 P 
的 交易 数 为 Se。 

因为 PSEU, 且 P 关 作 
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所 以 Sep 之 Su 
所 以 守之 闻 , 即 Support(P) 宇 Support(U) 


又 因为 PP 不 是 频繁 项 集 , 即 min_support 宇 Support(P) 

所 以 min_support 宇 Support(P) 宇 Support(U) 

所 以 U 一 定 不 是 频繁 项 集 

得 证 。 

Apriori 算法 依据 定理 7.1 和 定理 7.2 来 压缩 搜索 空间 。 主 要 的 步骤 如 下 : 

(1) 连接 步 。 为 找到 频繁 上 项 集 , 通 过 频繁 (k 一 1) 项 集 Li_1 与 本 身 连 接 , 近 而 生成 C。 
连接 方式 是 : 如 果 Li 中 的 两 个 项 集 A 与 B,A 与 B 不 相同 ,但 它们 的 前 (一 2) 个 项 目 是 
相同 的 , 则 把 B 的 最 后 一 个 项 目 加 到 A 的 最 后 ,这 样 就 构成 C 中 一 个 项 集 。 

(2) 剪 枝 步 。C 里 的 每 个 项 集 的 频繁 性 是 不 确定 的 ,但 所 有 的 频繁 上 项 集 都 一 定 在 C。 
里 。 要 想 找 出 这 些 频繁 项 集 ,就 需要 通过 扫描 数据 库 , 来 计算 Cs 中 的 项 集 的 计数 。 但 是 当 
Ci 很 大 时 ,计算 量 也 会 很 大 。 为 了 减少 不 必要 的 计算 ,依据 定理 7.2, 若 Cx 中 的 任 一 个 项 集 
的 (一 1) 项 子 集 不 包含 于 Le-i ,那么 该 项 集 就 是 非 频 繁 项 集 , 便 可 将 其 从 C 中 删 减 掉 。 

Apriori 算法 相关 过 程 的 伪 代 码 如 下 : 

算法 7.1 Apriori 算法 

// 和 输入 : 交易 数据 库 D, 最 小 支持 度 国 值 sap。。 

// 输 出: 可 以 产生 规则 的 所 有 频繁 集 工 


//ck: K 候 选 频繁 集 

/TIk: k 频 繁 集 

(1) Ll= find freqent 1 itemset (D); // 发 现 1 频繁 集 

(2) for(e=2; Ik- 1 ; kt+){ 

(3) ae= apriori gen (Le 1); // 根 据 k-1 频 繁 集 产生 k 候 选集 

(4) for each tE D{ // 扫 描记 录 集 ,以 确定 每 个 候选 集 的 支持 度 
(5) C= subset (Ce,tb)7 // 获 取 七 所 包含 的 候选 集 

(6) for each cEC. c.count++; 


0) )} 

(8) = {cE Gelc-count> supnj7 
(9) } 

(10) retum IF U .I 


Procedure apriori gen(L:-1): 


//( 输 入 :上 一 次 循环 扫描 的 结果 I， 
/输出 :频繁 候选 集 G 

(3 1) for each ME bs 

(3 2) for eadh 12E Ls 


(3 3) 证 0]=1220D)A…… A Qk 2=1202)A QA#12 1){ 

(34 LOLD; // 将 只 差 一 项 的 两 个 项 集 连 接 到 一 起 
B35 证 has infrequent subset(c, I 1) 

(G 6 delete c; // 删 去 不 可 产生 频繁 项 集 的 候选 


* Lo x 


(3.7) else G=CU tcl 
(38) 1 
(3 9) retum Ge7 


Procedure has_infrequent_subset(c.L:_1): 


// 输 入 : 本 次 扫描 产生 的 G 的 每 个 子 集 , 上 次 扫描 产生 的 I ， 
// 输 出 : c 是 否 将 被 从 cx 中 删除 
(3 5 1) for each (k-1)- subset s of c 
// 根 据 算法 性 质 : 候选 集 的 子 集 一 定 是 频繁 的 
(352) ifs¢I: retum TROE; 
else retum FALSE; 


对 于 表 7-7 所 示 的 交易 记录 和 集 , 设 定 supmis 二 3/10, 利 用 Apriori 算法 产生 频繁 集 过 程 
如 下 。 


表 7-7 超市 交易 数据 库 D 


交易 号 TID 顾客 购买 商品 Ttems 交易 号 TID 顾客 购买 商品 Items 
Tl bread cream milk tea T6 bread tea 
T2 bread cream milk 7 beer milk tea 
T3 cake milk T8 bread tea 
T4 milk tea 9 bread cream milk tea 


T5 bread cake milk bread milk tea 


(1) 由 三 {bread,beer,cake,cream,milk,tea} 的 所 有 项 目 直接 产生 1 候选 集 Ci ,计算 
其 支持 度 。 去 除 支持 度 小 于 supwa 的 项 集 ,形成 1 频繁 集 Li ,如 表 7-8 所 示 。 

(2) 为 发 现 频繁 2 项 集 工 , ,首先 利用 Li 中 的 各 项 目 组 合 连接 ,来 产生 2 候选 集 Cs ; 然 
后 扫描 记录 集 , 以 获得 C* 中 各 项 集 的 支持 度 。 去 除 支 持 度 小 于 supma 的 项 集 , 形 成 2 频繁 
集 Li ,如 表 7-9 所 示 。 


表 7-8 1 候选 集 C, 和 1 频繁 集 工 ， 表 7-9 2 候选 集 C, 和 2 频繁 集 工 ， 

项 集 C，| 支持 度 | 项 集 L，| 支持 度 项 集 Cs 支持 度 项 集 工 ; 支持 度 
{bread} 7/10 {bread} 7/10 {bread ,cream} 3/10 {bread, cream)} 3/10 
{beer} 1/10 {cream)} 3/10 {bread, milk} 5/10 {bread, milk} 5/10 
{cake} 2/10 {milk) 8/10 {bread, tea} 5/10 {bread, tea} 5/10 
{cream)} 3/10 {tea} 7/10 {cream, milk} 3/10 {cream, milk) 3/10 
{milk} 8/10 {cream, tea} 2/10 {milk, tea} 5/10 
{tea} 7/10 {milk, tea} 5/10 


(3) 为 发 现 频 繁 3 项 集 L; ,首先 利用 L 中 的 各 项 目 组 合 连接 ,来 产生 3 候选 集 C;。 连 
接 时 只 能 将 只 差 最 后 一 个 项 目 不 同 的 项 集 进 行 连接 。 例 如 ,L: 中 的 {bread, cream } 与 
{bread,milk} 只 有 最 后 一 个 项 目 不 同 , 可 以 连接 ,连接 结果 为 {bread,cream,milk}。 显 然 ， 
Ls 中 的 {bread,cream) 与 {milk,tea) 无 法 进行 连接 。 
连接 后 ,还 要 根据 Apriori 的 性 质 , 即 频 繁 集 的 子 集 一 定 是 频繁 的 ,来 修剪 {bread， 
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cream,milk) 。 即 依次 判断 {bread,cream,milk) 的 3 个 子 集 {bread,cream} ,.{bread,milk} 和 
{cream,milk} 是 否 都 出 现在 Ls 中 ,如 果 是 , 则 在 C* 中 保留 {bread,cream,milk ) 。 

又 如 ,Ls 中 的 {bread,cream) 与 {bread,tea) 只 有 最 后 一 个 项 目 不 同 ,也 可 以 连接 ,连接 
结果 为 {bread,creamytea}。 但 由 于 {creamytea} 没 有 出 现在 二 中 , 则 从 C, 中 删除 {bread， 
creamytea) 。 

最 后 扫描 记录 集 , 以 获得 Cs 中 各 项 集 的 支持 度 。 去 除 支 持 度 小 于 supua 的 项 集 ,形成 
3 频繁 集 Ls ,如 表 7-10 所 示 。 


表 7-10 3 候选 集 Cs 和 3 频繁 集 L3 


项 集 Cs 支持 度 项 集 Ls 支持 度 
{bread,creamymilk} 3/10 {bread,cream, milk} 3/10 
{bread, milk, tea} 3/10 {bread,milk ,tea} 3/10 


(4) 为 发 现 频繁 4 项 集 L, ,重复 上 述 步骤 , 则 C, 为 空 ,所 有 频繁 集 都 被 找到 ,算法 到 止 


此 后 ,用 户 可 以 根据 需要 设 定 规则 的 最 小 可 信和 度 confu ,利用 Apriori 算法 产生 的 频繁 
集 L 和 工 ; ,产生 强 关联 规则 。 这 里 要 注意 的 是 ,根据 不 同 需 要 ,用 户 可 以 只 关心 由 最 长 的 
频繁 集 即 Ls 产生 的 规则 ,或 者 可 以 挖掘 出 所 有 由 工 和 工 产生 的 规则 。 

Apriori 算法 性 能 分 析 。 

(1) Apriori 算法 的 优势 。Apriori 算法 的 空间 复杂 度 小 ,并 有 两 个 先 验 性 质 : 定理 7.1 
和 定理 7.2, 如 果 某 一 项 集 不 是 频繁 的 项 集 , 则 其 任意 超 集 就 可 直接 删除 ,不必 计算 其 支持 
度 。 这 样 便 可 以 对 候选 集 进 行 有 效 地 裁剪 ,特别 对 短 模式 的 关联 规则 控 掘 非常 有 效 。 在 
min_ support 不 太 小 的 情况 ,扫描 数据 库 的 次 数 也 不 会 很 多 。 

(2) Apriori 算法 的 劣势 。 为 了 计算 候选 集 支持 度 , 要 对 数据 库 进行 多 次 扫描 。 由 于 每 
产生 一 个 候选 项 集 , 就 要 对 数据 库 进行 一 次 扫描 。 若 产生 的 频繁 项 集 的 最 大 长 度 为 M, 那 
么 就 需要 扫描 M 次 数据 库 。 如 果 数 据 库 规模 很 大 时 ,在 一 定 的 内 存 下 ,系统 的 输入 与 输出 
的 负载 量 就 会 很 大 ,并 且 扫 描 一 次 数据 库 的 时 间 也 会 很 长 ,算法 的 挖掘 效率 就 会 明显 的 
降低 。 

Apriori 算法 生成 的 中 间 项 集 也 很 大 。 用 L,_1 自 连接 生成 C; . 随 着 的 增 大 ,生成 的 Cx 
的 数量 也 是 以 几何 级 数 增长 的 。 尽 管 算法 本 身 已 经 使 用 了 裁剪 策略 ,但 Ci 的 数量 还 是 
很 多 。 


2. FP-growth 算法 


针对 Apriori 算法 存在 的 问题 ,Jiawei Han 等 人 于 2000 年 提出 一 种 新 的 基于 FP-tree 
的 频繁 模式 增长 算法 ,简称 为 FP-growth(Frequent Pattern Growth) 算 法 ,其 不 用 生成 候选 
项 集 , 便 可 以 生成 所 有 的 频繁 项 集 。 
FP-growth 算法 使 用 的 策略 是 : 分 而 治之 。 在 两 次 扫描 数据 库 后 ,把 数据 库 压 缩 到 一 
棵 频繁 模式 树 (FP-tree) ,同时 保留 其 中 的 项 集 的 关联 信息 。 再 将 频繁 模式 树 分 成 一 些 条 件 
FP 树 , 每 个 条 件 FP 树 和 一 个 频繁 项 集 相 关联 ,最 后 ,对 这 些 条 件 FP 树 分 别 进行 挖掘 。 将 
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分 别 挖掘 出 的 关联 规则 并 在 一 起 ,就 是 所 有 的 。 

定义 7.7( 频 繁 项 ) 

单个 项 目的 支持 度 超过 最 小 支持 度 则 称 其 为 频繁 项 (frequent item)。 

定义 7.8(FP-tree) 

频繁 模式 树 (FP-tree) 是 一 个 树 形 结构 。 包 括 一 个 频繁 项 组 成 的 头 表 , 一 个 标记 为 null 
的 根 节点 , 它 的 子 节点 为 一 个 项 前 级 子 树 的 集合 。 

定义 7.9( 频 繁 项 头 表 ) 

频繁 项 头 表 (head table) 的 每 个 表 项 由 两 个 域 组 成 : 项 目 名 称 item_name 和 指针 node_ 
like。node_like 指向 FP-tree 中 具有 与 该 表 项 相同 item_name 的 第 一 个 节点 。 

定义 7. 10( 项 前 缀 子 树 ) 

每 个 项 前 级 子 树 (item prefix subtree) 的 节点 有 3 个 域 : item_name、count 和 node_ 
like。item_name 记录 了 该 节点 所 代表 的 项 的 名 字 。count 记录 了 所 在 路 径 代 表 的 交易 中 
包含 此 节点 项 目的 交易 个 数 。node_like 指向 下 一 个 具有 同样 item_name 域 的 节点 ,要 是 没 
有 这 样 一 个 节点 ,就 为 null。 

FP-growth 算法 分 为 两 大 部 分 ,描述 如 下 。 

(1) 构造 FP 树 。FP 树 是 事务 数据 库 的 压缩 表示 ,每 个 事务 都 映射 到 FP 树 中 的 一 条 
路 径 。 不 同 的 事务 可 能 包含 若干 相同 的 项 目 , 因 此 这 些 路 径 会 有 所 重 释 ,使 得 事务 数据 能 得 
到 一 定 程度 的 压缩 。FP 增长 算法 挖 气 频 繁 项 集 的 过 程 如 下 。 

中 搜索 事务 数据 库 D, 找 到 1 频繁 项 集 及 其 支持 数 。 例 如 ,对 于 表 7-7 所 示 的 交易 记录 
集 ,最 小 支持 度 为 3, 按 支持 数 递 减 排序 ,其 结果 记 为 L==[milk:8,bread:7,tea:7,cream:3j]。 

@ 构造 FP 树 。 创 建 FP 树 的 根 节点 ,用 符号 null 标记 。 第 二 次 搜索 事务 数据 库 DD, 按 
L 中 的 次 序 排列 每 个 事务 的 项 集 ,并 对 每 个 事务 创建 由 根 节点 null 出 发 的 路 径 。 

例如 ,对 表 7-7 所 示 的 事务 数据 库 按 L 重新 排序 ,第 一 个 事务 按 工 的 次 序 为 {milk,bread， 
tea,cream} 。 构 造 FP 树 的 第 一 个 分 支 二 (milk:1),(bread:1),(tea:1),(Ccream:1) 二 ,其 中 
的 数字 表示 节点 的 计数 。 读 取 第 二 个 事务 时 会 产生 第 二 个 分 支 , 然 而 该 分 支 与 第 一 个 事务 
共享 前 级 milk 和 bread, 这 时 把 共享 前 缀 的 节点 计数 加 1。 扫 描 所 有 事务 后 得 到 的 FP 树 ， 
如 图 7.3 所 示 。 为 了 方便 遍历 ,FP 树 还 包含 连接 具有 相同 节点 的 指针 列表 ,在 图 7.3 中 用 
虚线 表示 。 


Milk :8 一 
Bread :7- 一 


人 =-Ce 六 
Cream 3 


图 7.3 头 表 和 FP-tree 


(2) 利用 FP 树 产生 频繁 项 集 

FP 增长 算法 以 自 底 向 上 的 方式 搜索 FP 树 ,由 工 的 倒序 开始 ,对 每 个 1 频繁 项 目 构造 
条 件 FP 树 , 然 后 递归 地 对 该 条 件 FP 树 进行 挖掘 : 根据 算法 ,从 表 项 (cream :3) 出 发 , 先 可 
以 得 到 一 个 频繁 项 集 (cream :3)。 然 后 , 顺 着 cream 表 项 的 node_ link 域 , 找 到 所 有 包含 
cream 的 路 径 二 milk :8,bread :5,tea :3,cream :2 二 和 二 milk :8,bread :5,cream :1 二 。 
根据 cream 的 计数 ,将 上 述 路 径 简化 为 关于 cream 的 如 下 信息 : 二 milk,bread,tea :2 之 和 
二 milk,bread :1 二 。 然 后 利用 FP-tree 的 建立 方法 建立 一 个 新 的 关于 cream 的 FP-tree, 如 
图 7.4 所 示 。 

由 此 搜索 路 径 , 可 以 产生 包含 项 目 cream 的 所 有 频繁 集 Ls ,如 表 7-11 所 示 。 


2 表 7-11 包含 项 目 cream 的 所 有 频繁 集 Leem 
milk :3 一 
本 站 一 Co3 ) 频繁 集 Lercam 计数 
TS {bread ,cream)} 3 
My 
CH) {milk ,cream) 3 
图 7.4 关于 cream 的 FP-tree (ml bready erean} a 


依次 建立 关于 图 7. 3 中 的 头 表 项 目 (tea :7)、(bread :7) 以 及 (milk :8) 的 FP-tree, 找 到 
所 有 包含 项 目 tea 的 频繁 集 {bread,tea :5)、{milk,tea :5)、{milk,bread,tea :3); 包 含 项 目 
bread 的 频繁 集 {milk,bread :5)。 

所 有 项 目 求解 完 后 ,算法 结束 。 可 以 对 比 一 下 ,由 Apriori 算法 和 FP-tree 算法 得 到 频 
繁 集 相 同 ,但 Apriori 算法 扫描 数据 集 DD 的 次 数 远 远 超过 FP-tree 算法 。 下 面 对 FP-growth 
算法 的 性 能 进行 分 析 。 

FP-growth 算法 的 优势， 

Q FP-growth 算法 仅仅 遍历 了 2 次 数据 库 , 第 一 次 是 为 了 产生 Li ,第 二 次 是 为 了 对 项 
目 排序 。 由 于 不 用 多 次 扫描 数据 库 , 便 大 大 节省 了 扫描 数据 库 的 时 间 。 

@ 选用 了 分 治 策略 ,把 挖掘 的 长 频繁 模式 转换 成 递归 地 挖掘 短 模式 的 问题 ,再 与 后 级 
相连 。 

@ 对 于 挖掘 长 频繁 模式 与 短 的 频繁 模式 时 ,有 效 性 与 可 伸缩 性 都 是 该 算法 的 特点 , 挖 
掘 时 间 会 比 Apriori 算法 的 挖掘 时 间 少 很 多 。 

FP-growth 算法 的 劣势 : 

。 建立 FP-tree 时 ,会 占用 大 量 的 内 存 空 间 。 如 果 数 据 库 的 规模 很 大 ,要 建立 的 

FP-tree 也 会 很 巨大 。 

。 在 递归 构建 FP-tree 时 ,每 生成 一 个 频繁 模式 就 会 出 现 一 个 条 件 树 。 当 生成 与 释放 

海量 的 条 件 树 时 ,将 占用 很 多 的 运算 时 间 与 计算 机 空间 。 
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7.3 数据 分 类 


分 类 是 最 常见 的 数据 挖掘 任务 之 一 , 它 也 是 人 类 自身 认识 和 改造 世界 的 第 一 步 。 为 了 
理解 并 与 各 种 周边 环境 进行 交互 ,人 脑 每 天 都 在 做 着 归 类 、 分 类 以 及 分 级 的 工作 。 数 据 分 类 
是 人 脑 分 类 思想 在 信息 处 理 领 域 的 扩展 和 延伸 , 它 是 通过 分 析 由 属性 描述 的 数据 库 元 组 来 
建立 分 类 模型 ,并 利用 该 模型 对 数据 元 组 进行 类 别 标识 的 数据 处 理 过 程 。 目 前 ,用 于 数据 分 
类 的 理论 和 技术 有 很 多 。 本 节 简 要 介绍 基于 决策 树 、 贝 叶 斯 网 络 、 神 经 网 络 等 常用 的 分 类 
方法 。 


7.3.1 数据 分 类 的 基本 步骤 与 评价 准则 


分 类 (classification) 是 一 个 从 现 有 的 带 有 类 别 的 数据 集中 寻找 同一 类 别 数据 的 共同 特 
征 , 并 以 这 些 特征 为 依据 对 新 数据 进行 区 分 的 过 程 。 

数据 分 类 一 般 分 为 两 个 步骤 , 第 一 步 是 建立 数据 分 类 的 基础 模型 ,描述 预定 的 数据 类 
集 或 概念 集 。 为 建立 模型 而 被 分 析 的 数据 元 组 集合 称 为 训练 样本 集 。 基 础 模型 的 建立 往往 
是 借助 某 些 分 类 算法 进行 的 。 分 类 算法 通过 分 析 训练 样本 数据 集中 的 各 个 训练 样本 ,提取 
出 以 非 分 类 标识 属性 为 前 件 , 以 分 类 标识 属性 作为 后 件 的 分 类 规则 ,构建 用 于 进行 数据 分 类 
的 基础 模型 。 分 类 模型 可 用 分 类 规则 判定 树 或 数学 公式 等 形式 表示 出 来 。 

第 二 步 ,使 用 模型 进行 分 类 。 一 般 情 况 下 ,在 使 用 建 
立 好 的 分 类 模型 进行 数据 分 类 之 前 ,首先 要 使 用 预先 准备 
好 的 分 类 测试 样本 集 测 试 模型 的 分 类 准确 率 。 准 确 率 若 
满足 要 求 则 可 使 用 模型 对 数据 进行 分 类 ;否则 , 则 要 返回 
第 一 步 重新 建立 分 类 模型 ,直到 模型 通过 测试 为 止 。 

数据 分 类 的 基本 步 又 可 以 借助 程序 设计 框图 描述 成 
如 图 7.5 所 示 。 

需要 说 明 的 问题 是 ,不 论 采 用 何 种 分 类 算法 所 建立 的 
分 类 模型 都 有 可 能 存在 过 度 适 应 的 问题 , 即 模型 可 能 只 集 
中 体现 训练 数据 中 的 某 些 特点 ,这 些 特点 并 不 代表 总 体 样 
本 群 的 特点 。 因 此 ,在 选择 训练 样本 集 和 测试 样本 集 时 一 
定 要 注意 样本 选择 的 随机 性 ,尽量 使 得 样本 能 够 覆盖 样本 
ee 总 体 的 所 有 可 能 特点 。 

在 分 类 问题 中 ,通常 使 用 评价 准则 来 评估 所 构造 分 类 
器 的 分 类 性 能 。 下面 介 绍 几 种 分 类 问题 中 常用 的 评价 
准则 。 

给 定 测试 集 Xe 一 (Cz,y) 1 二 1,2,…,N) ,其 中 ,N 表示 测试 集中 的 样本 个 数 ;x.(1 达 
;二 N) 表 示 测 试 集中 的 数据 样本 ;yw (1<i<N) 表 示 数 据 样 本 x 的 类 标号 ,假设 要 研究 的 分 
类 问题 含有 六 个 类 别 , 则 weE {wes，… ,cn) 。 在 分 类 问题 中 ,对 于 测试 集 的 第 j(1<j<<m) 
个 类 别 ,假设 被 正确 分 类 的 样本 数量 为 TP; ,被 错误 分 类 的 样本 数量 为 FN; ,其 他 类 别 被 错 
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图 7.5 数据 分 类 步骤 


误 分 类 为 该 类 的 样本 数量 为 FP;。 
1. 精确 度 


精确 度 Caccuracy) 是 分 类 问题 中 最 常用 的 评价 准则 , 它 的 值 代表 测试 集中 被 正确 分 类 
的 数据 样本 所 占 的 比例 。 精 确 度 反 映 了 分 类 器 对 于 数据 集 的 整体 分 类 性 能 。 精 确 度 定义 如 
式 (7-7) 所 示 。 
2 
Accuracy = ee (7-7) 
2. 查 全 率 和 查 准 率 


第 j(1 志 j 和 二) 个 类 别 的 查 全 率 (Recall; ) 表 示 在 本 类 样本 中 ,被 正确 分 类 的 样本 所 占 的 
比例 ;而 查 准 率 (Precision; ) 表 示 被 分 类 为 该 类 的 样本 中 ,真正 属于 该 类 的 样本 所 占 的 比例 。 
查 全 率 和 查 准 率 分 别 表示 某 个 单一 类 别 的 分 类 精度 和 纯度 ,它们 的 定义 如 式 (7-8) 和 式 (7-9) 
所 示 。 

TP, 


Recall; = TP, + Fm’ 下 站 过 抑 (7-8) 
Precision; = TE 1<j<m (7-9) 
汪 


3. F-measure 
F-measure 可 以 比较 合理 地 评价 分 类 器 对 每 一 类 样本 的 分 类 性 能 。 第 j(1 志 j 志 区) 个 


类 别 的 F-measure; 的 定义 如 式 (7-10) 所 示 , 它 是 查 全 率 和 查 准 率 的 组 合 表 达 式 ,其 中 8 是 可 
以 调节 的 ,通常 取 值 为 1。 


(1+B°) X Recall; X Precisiony 


PB* X Recall; 十 Precisiomy 9 


F-measure; 


4. 几何 均值 


儿 何 均值 (G-mean) 也 是 一 种 非常 有 效 的 评价 准则 , 它 能 够 合理 地 评价 数据 集 的 整体 分 
类 性 能 。G-mean 是 各 个 类 别 的 查 全 率 的 平方 根 。 当 各 个 类 别 的 查 全 率 的 值 都 大 时 ， 
G-mean 才 相应 增 大 , 它 同时 兼顾 了 各 个 类 别 的 分 类 精度 。G-mean 的 定义 如 式 (7-11) 所 示 。 


G-mean = 证 Recall; (7-11) 
j=1 


在 上 述评 价 准 则 中 ,精确 度 是 分 类 问题 中 最 常用 的 评价 准则 。 需 要 说 明 的 是 ,对 于 各 个 
类 别 分 布 相对 均衡 的 数据 集 , 精 确 度 是 比较 合理 的 评价 准则 。 但 是 , 当 各 个 类 别 分 布 不 均 
衡 ,特别 是 所 关注 的 类 别 包含 的 样本 数量 比较 小 时 ,精确 度 不 能 正确 反映 每 个 具体 类 别 的 分 
类 性 能 。 在 这 种 情况 下 ,使 用 查 全 率 、 查 准 率 、F-measure 或 者 几何 均值 更 为 合理 。 因 此 ,在 
评价 分 类 器 的 分 类 性 能 时 ,要 根据 数据 集 的 特点 和 所 关注 的 侧重 点 的 不 同 ,选择 最 合适 的 评 
价 准则 。 
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7.3.2 决策 树 


自 20 世纪 60 年 代 以 来 ,决策 树 在 分 类 \ 预 测 .规则 提取 等 领域 有 着 广泛 应 用 ,特别 是 在 
Quinlan 于 1986 年 提出 ID3 算法 以 后 ,决策 树 方法 在 机 器 学 习 、 知 识 发 现 领域 得 到 了 进 一 
步 应 用 及 巨大 的 发 展 , 在 人 工 智能 领域 有 着 相当 重要 的 理论 意义 与 实用 价值 。 

决策 树 技术 是 用 于 分 类 和 预测 的 主要 技术 ,决策 树 学 习 是 以 实例 为 基础 的 归纳 学 习 算 
法 , 它 着 眼 于 从 一 组 无 次 序 、 无 规则 的 事例 中 推理 出 决策 树 表 示 形 式 的 分 类 规则 ,通常 用 来 
形成 分 类 器 和 预测 模型 ,可 以 对 未 知 数据 进行 分 类 或 预测 .数据 挖掘 等 。 它 包括 两 个 步 又 : 
第 一 步 是 利用 训练 样本 集 来 建立 并 精 化 出 一 棵 决策 树 ,建立 决策 树 模 型 。 这 个 过 程 实际 上 
是 一 个 从 数据 中 获取 知识 ,进行 机 器 学 习 的 过 程 。 该 过 程 通常 分 为 两 个 阶段 : 建树 和 剪 枝 。 
第 二 步 是 利用 建 好 的 决策 树 对 新 的 数据 进行 分 类 。 

决策 树 算法 不 要 求 使 用 者 掌握 应 用 领域 的 知识 ,完全 通过 训练 集 自动 构建 分 类 器 对 未 
知 数据 进行 分 类 或 预测 ,并且 决 策 树 很 容易 转换 为 分 类 规则 ,原理 简单 容易 理解 。 因 此 决策 
树 算法 在 实际 应 用 中 最 为 广泛 。 

决策 树 学 习 方法 是 以 给 定数 据 样本 为 基础 的 归纳 学 习 方法 。 在 给 定 已 知 类 标号 的 数据 
集 的 情况 下 ,决策 树 学 习 方法 采用 自 顶 向 下 的 递归 方式 来 产生 一 个 类 似 于 流程 图 的 树 结构 。 
树 的 最 顶层 节点 称 为 根 节点 ;最 底层 节点 称 为 叶 节点 ,每 个 叶 节 点 代表 样本 的 类 别 或 者 类 分 
布 ; 根 节 点 和 叶 节 点 之 间 的 节点 称 为 内 部 节点 。 决 策 树 学 习 方法 在 根 节点 和 各 内 部 节点 上 
根据 给 定 的 度量 标准 来 选择 最 适合 的 描述 属性 作为 分 支 属性 ,并且 根 据 该 属性 的 不 同 取 值 
向 下 建立 分 支 。 对 未 知 类 标号 的 数据 样本 进行 分 类 时 ,从 根 节点 开始 逐 层 向 下 判断 ,直到 叶 
节点 ,这 样 就 可 以 得 到 该 数据 样本 的 类 标号 。 


1. 决策 树 算 法 ID3 


ID3 算法 是 Quinlan 提出 的 一 种 基于 信息 炉 的 决策 树 学 习 算 法 , 它 是 决策 树 算法 中 最 
为 典型 的 算法 。Quinlan 把 Shannon 的 信息 论 引 入 到 了 决策 树 算法 中 ,采用 分 治 策略 ,在 决 
策 树 各 级 节点 上 选择 属性 时 ,检测 所 有 的 属性 ,选择 信息 增益 最 大 的 属性 产生 决策 树 节点 ， 
由 该 属性 的 不 同 取 值 建立 分 支 , 再 对 各 分 支 的 子 集 递归 调用 该 方法 建立 决策 树 节点 的 分 支 ， 
直到 所 有 子 集 仅 包含 同一 类 别 的 数据 为 止 。 最 后 得 到 一 棵 决策 树 , 它 可 以 对 新 的 样本 进行 
分 类 。ID3 算法 的 基本 步骤 如 下 : 

(1) 创建 一 个 节点 。 如 果 样 本 都 在 同一 类 中 , 则 算法 停止 ,把 该 节点 改 成 树叶 节点 ,并 
用 该 类 标记 。 

(2) 否则 ,选择 一 个 能 够 最 好 地 将 训练 集 分 类 的 属性 ,该 属性 作为 该 节点 的 测试 属性 。 

(3) 对 测试 属性 中 的 每 一 个 值 创建 相应 的 一 个 分 支 ,并 据 此 划分 样本 。 需 要 注意 的 是 ， 
在 ID3 算法 中 ,属性 值 都 是 离散 的 ,如 果 属 性 值 是 连续 的 ,那么 要 通过 数据 变换 ,把 属性 值 化 
为 离散 的 。 有 的 时 候 虽 然 属性 值 是 离散 的 ,但 是 离散 的 值 太 多 ,而 且 为 每 一 个 离散 的 属性 值 
都 创建 一 个 分 支 对 分 类 分 析 没 有 什么 明显 的 改善 ,那么 我 们 也 要 把 属性 值 进 行 变换 。 例 如 ,可 
以 将 “年 龄 ”属性 划分 为 100 一 61 岁 、60 一 51 岁 、50 一 41 岁 、40 一 31 岁 、30 一 21 岁 .20 一 0 岁 
几 个 区 间 。 
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(4) 使 用 同样 的 过 程 自 顶 向 下 地 递归 ,直到 满足 下 面 三 个 条 件 中 的 一 个 时 , 才 停止 
递归 。 

@ 给 定 节点 的 所 有 样本 都 属于 同一 类 。 

@ 没有 剩余 的 属性 可 以 用 来 进一步 划分 。 

@ 继续 划分 得 到 的 改进 不 明显 。 

在 @、@ 这 两 种 情况 下 ,以 在 该 节点 下 的 样本 中 的 大 多 数 的 类 别 标号 作为 该 节点 的 类 别 
标号 ,创建 一 个 树叶 节点 。 

决策 树 算法 的 一 个 重要 问题 就 是 在 树 的 各 个 内 部 节点 处 寻找 一 个 属性 ,该 属性 能 够 最 
好 地 将 训练 集 进行 分 类 。ID3 通过 划分 提供 的 信息 增益 选择 测试 属性 。 信 息 增益 被 定义 为 
原始 分 割 的 入 与 划分 以 后 各 分 割 的 箭 累加 得 到 的 总 箭 之 间 的 差 。 也 就 是 说 ,信息 增益 是 指 
划分 前 后 进行 正确 预测 所 需 的 信息 量 之 差 。 信 息 增益 越 大 , 则 划分 后 预测 所 需 的 信息 越 少 ， 
这 就 表明 较 好 地 降低 了 划分 前 的 无 序 度 。 因 此 ,要 选择 具有 最 高 信息 增益 的 属性 作为 当前 
节点 的 测试 属性 。 

假设 给 定 的 数据 集 为 X={ (zi,yi)1i 二 1,2,… ,total) ,其 中 样本 ri(Gi 一 1,2,…,total) 用 
d 维特 征 向 量 x; = 二 (za,za，…… ,Xa ) 来 表示 ,zaszzs…… ,Xa 分 别 对 应 4 个 描述 属性 Al， 
As , ,As 的 具体 取 值 ;y; (i 二 1,2,… ,total) 表 示 样 本 x; 的 类 标号 ,假设 要 研究 的 分 类 问题 
含有 mm 个 类 别 , 则 y;€E {cco，…,cn)。 需 要 说 明 的 是 ,在 创建 根 节 点 时 ,数据 集 X 是 最 初 
给 定 的 所 有 数据 ,在 创建 内 部 节点 时 ,数据 集 X 是 上 层 节点 的 某 个 分 支 对 应 的 数据 集 。 

假设 n; 是 数据 集 X 中 属于 类 别 cj 的 样本 数量 , 则 各 类 别 的 先 验 概率 为 P(ci) 一 
nj/total,j 二 1,2,…,m。 对 给 定数 据 集 X 分 类 所 需 的 期 望 信息 为 


Tm sn nm) 一 一 DS pe)logs (PCe))) (7-12) 
设 描述 属性 Aj(f 二 1,2,…,d) 具 有 g 个 不 同 的 取 值 {ayy ,azj，…,aw), 利 用 描述 属性 
Ar 可 以 将 数据 集 X 划分 为 g 个 子 集 {Xi ,Xs，,…,X,) ,其 中 X,(s 二 1,2,…,g) 中 的 样本 在 


Ar 上 具有 相同 的 取 值 cv 。 设 六 表示 子 集 XX, 中 的 样本 数据 ,nj 表示 子 集 X, 中 属于 类 别 < 
的 样本 数量 。 则 由 描述 属性 Ay 划分 数据 集 X 所 得 的 业 为 


9 
E(A/) = 2 me Tse ns) (7-13) 
式 中 
TOns sm) =— D>) pilogs (ps;) (7-14) 


式 中 ,pj 二 n/n, 表示 在 子 集 X, 中 类 别 为 cj 的 数据 样本 所 占 的 比例 。 式 (7-13) 中 的 炉 值 
越 小 ,表示 属性 对 数据 集 划 分 的 纯度 越 高 。 
根据 式 (7-12) 一 式 (7-14) ,可 以 得 到 利用 描述 属性 Aj(f 二 1,2,…,d) 划 分 数据 集 时 的 
信息 增益 ,如 式 (7-15) 所 示 。 
Gain(Ay) = I(m ,nz nn) 一 下 (Ar) (7-15) 
选择 具有 最 高 信息 增益 的 描述 属性 作为 给 定数 据 集 X 的 分 支 属 性 ,从 而 创建 决策 树 中 
的 一 个 节点 ,并 且 根 据 该 描述 属性 的 不 同 取 值 再 创建 分 支 , 之 后 对 各 分 支 的 样本 子 集 递归 调 
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用 上 述 方法 建立 该 节点 的 各 个 子 节点 。 当 某 个 分 支 上 的 所 有 数据 样本 都 属于 同一 个 类 别 时 
划分 停止 ,形成 叶 节 点 ;或 者 当 某 个 分 支 上 的 样本 不 属于 同一 个 类 别 , 但 是 又 没有 剩余 的 描 
述 属性 可 以 进一步 划分 数据 集 时 也 形成 叶 节 点 ,并 且 用 多 数 样本 所 属 的 类 别 来 标记 这 个 叶 

由 以 上 分 析 可 以 看 出 ,数据 划分 是 决策 树 分 类 方法 的 重要 思想 。 也 就 是 说 ,决策 树 分 类 
方法 采用 自 顶 向 下 的 递归 方式 ,将 原始 的 样本 空间 划分 成 若干 更 小 的 样本 空间 ,再 对 它们 单 
独 进行 处 理 。 


2. ID3 算法 应 用 举例 


本 节 通 过 一 个 应 用 实例 来 说 明 ID3 算法 构建 决策 树 及 提取 分 类 规则 的 过 程 。 
例 7-1 表 7-12 中 给 出 了 某 公 司 客户 信息 的 训练 样本 集 ,利用 IDB 算法 生成 决策 树 ,并 
进行 规则 提取 。 


表 7-12 客户 购买 力 情况 分 析 数 据 样本 集 


序号 | 客户 性 质 (A1) | 年 生产 总 值 /万 元 (A,) | 销售 频率 /次 (A3) | 所 属 省 市 (A,) | 客户 购买 力 (C) 
国营 三 2000 三 10 安徽 省 高 
2 国营 1000 一 1999 <10 安徽 省 一 般 
EE 私营 所 1000 <10 江苏 省 低 
4 民营 1000~1999 =<10 上 海 一 般 
私营 1000 一 1999 <10 江苏 省 低 
6 民营 宇 2000 过 10 安徽 省 高 
私营 1000 一 1999 三 10 上 海 高 
8 私营 1000 一 1999 <10 安徽 省 低 


解 样本 集 共 8 条 记录 total==8, 其 中 : 客户 购买 力 高 C1 类 记录 数 n= 二 3, 客 户 购买 力 
一 般 Cs 类 记录 数 n, 二 2, 客 户 购 买 力 低 Cs 类 记录 数 ns 二 3, 所 以 训练 集中 三 个 类 别 的 先 验 
概率 分 别 为 : 

P(C) = 3/8, P(C:) =2/8, P(C;) = 3/8 

根据 式 (7-12) ,对 训练 集 分 类 所 需 的 期 望 信息 为 

I(n ,nz ,713 ) 一 一 Po)log(Pdc)) 


j=1 

=— ((3/8)log; (3/8) + (2/8)log; (2/8) + (3/8)log; (3/8)) 

=1. 561 
属性 A: 二 “客户 性 质 ” 可 取 3 个 值 ,Vi 二 “国营 ” 共 2 条 记录 ,其 中 : Ci 类 1 条 记录 ， 
Cs 类 1 条 记录 ,由 此 得 : pu = 二 1/2, pa 二 1/2, pa 二 0/2。V;= 二 “民营 ” 共 2 条 记录 ,其 中 ， 
Ci 类 1 条 记录 ,Cs 类 1 条 记录 ,由 此 得 : pi 二 1/2, pz 二 1/2,pas 二 0/2。Vs 二 “私营 ” 共 4 条 
记录 ,其 中 : Ci 类 1 条 记录 ,Cs 类 3 条 记录 ,由 此 得 : pis 二 1/4,pzs 二 0/4,pss 二 3/4。 


3 
EC = m,n ss ) 


s=1 


。 160 。 


721 十 7221 十 7 Mz 十 nzz 十 nn 
一 于 nm na ns) 二 In 22 97132 ) 
total total 


m13 十 7123 十 7 
二 一 一 3 一 33 J 了 (ys 7123 7033 ) 
total 


=2/8 X [— (1/2)log; (1/2) + (1/2)log;s (1/2)] 
十 2/8 X [— (1/2)logs (1/2) + (1/2)logs (1/2)] 
+- 4/8 X [— (1/4)logs (1/4) + (3/4)log;, (3/4)] 
一 0. 906 
Gain(A1) = TCOa ,zz ,rs ) 一 E(A;) 一 1.561 一 0. 906 = 0.655 
同 理 可 得 : 
Gain(A,) = 0.61, Gain(A:) = 0.954, Gain(A,) = 0.936 

根据 ID3 算法 选择 信息 增益 最 大 的 属性 “销售 频率 A: "作为 树 根 ,在 8 个 实例 中 对 “ 销 
售 频率 A,” 的 2 个 取 值 进行 分 支 。 

2 个 分 支 对 应 2 个 子 集 ,分 别 是 : 销售 频率 A 为 “ 宇 10” 的 子 集 所 二 {1,6,7}) ;销售 频率 
A; 为 “二 10” 的 子 集 F, 二 {2,3,4,5,8}。 其 中 ,Fi 中 的 实例 全 部 属于 Ci 类 (客户 购买 力 高 )， 
因此 对 应 分 支 标注 为 一 个 叶 节 点 ,而 且 叶 节点 的 类 标号 为 C1 类 (客户 购买 力 高 ),F, 子 集 既 
含 Cs 类 又 含有 Cs 类 , 将 递归 调用 建树 算法 。 

F, 中 共有 5 个 实例 ,有 2 个 属于 Cs 类 ,3 个 属于 Cs: 类: 

I(nz ,ms ) =— ((2/5)logs (2/5) 十 (3/5)log:(3/5)) = 0. 971 

Ai 王 客户 性 质 ,E(A1)==0,Gain(Ai) 二 0. 971。 

A;: 一 年 生产 总 值 ,E(A:) 王 0.8,Gain(A;) 一 0. 171 。 

A4 王 所 属 省 市 ,E(A, )= 王 0.4,Gain(A,) 王 0.571。 

按 信息 增益 最 大 的 “客户 性 质 A,” 属 性 ,可 将 Fs 进一步 划分 为 : Fz = 二 {2) ;Fz 二 {3,5， 
8) ;Fs 二 {4)}。 其 中 ,Fz 和 Fs 中 的 实例 全 属于 Cs 类 ,Fs 中 的 实例 全 属于 Cs 类 。 到 此 , 递 
归 建 树 过 程 结束 ,得 到 企业 客户 购买 力 判 定 树 如 图 7.6 所 示 。 


三 10 
客户 购买 力 高 
民营 
私营 
客户 购买 力 低 客户 购买 力 一 般 


图 7.6 企业 客户 购买 力 判 定 树 


由 决策 树 可 以 很 容易 得 到 “IF…THEN…" 形 式 的 分 类 规则 ,方法 是 沿 着 由 根 节点 到 树 
叶 节 点 的 路 径 , 路 径 上 的 每 一 个 属性 - 值 对 可 以 形成 IF 部 分 的 一 个 合 取 项 ,树叶 节点 包含 类 
预测 ,形成 THEN 部 分 。 每 一 条 路 径 可 以 创建 一 个 规则 。 图 7. 6 所 示 的 决策 树 可 以 转化 为 
以 下 形式 的 分 类 规则 : 
正 销 售 频率 =" 空 10" THEN 类 别 标记 = "客户 购买 力 高 " 
"61 泛 


正 销 售 频率 ="<10" AWD 客户 性 质 =" 国 营 " THN 类 别 标记 = " 喀 户 购买 力 一 般 " 

正 销 售 频率 ="<10" AWD 客户 性 质 =" 号 营 " THN 类 别 标记 = " 喀 户 购买 力 低 " 

正 销 售 频率 ="<10" AWD 客户 性 质 =" 民 营 " THEN 类 别 标记 = " 喀 户 购买 力 一 般 " 

这 些 规则 能 够 直观 地 反映 出 客户 购买 企业 产品 的 能 力 ,实现 对 企业 客户 价值 度 、 客 户 结 
构 等 分 析 ,获得 企业 产品 高 购买 力 客户 的 特点 ;有 助 于 企业 为 不 同类 型 的 客户 制定 针对 性 的 
营销 策略 ,也 有 助 于 企业 管理 者 对 产品 的 安全 库存 量 科学 准确 地 预测 。 


3. 决策 树 算法 C4.5 


ID3 算法 在 选择 重要 特征 时 利用 了 信息 增益 的 概念 ,算法 的 基础 理论 清晰 ,方法 简单 ， 
学 习 能 力 较 强 , 适 于 处 理 大 规模 的 学 习 问 题 。 该 算法 的 计算 时 间 是 例子 个 数 、 特 征 个 数 、 节 
点 个 数 之 积 的 线性 函数 。 

但 是 ,ID3 算法 也 存在 缺点 ,首先 ID3 算法 倾向 于 选择 取 值 较 多 的 属性 ,而 在 大 多 数 情 
况 下 多 值 属性 不 一 定 是 最 优 的 属性 ;其 次 ,ID3 算法 只 能 对 描述 属性 为 离散 型 属性 的 数据 集 
构造 决策 树 。 

针对 ID3 算法 的 不 足 ,Quinlan 在 1993 年 提出 了 C4. 5 算法 , 它 是 ID3 算法 的 后 继 , 同 
时 也 成 为 后 面 诸多 决策 树 算法 的 基础 。 

C4.5 算法 采用 基于 信息 增益 率 (Information Gain Ratio) 的 方法 选择 测试 属性 ,克服 了 
ID3 算法 使 用 信息 增益 选择 属性 时 偏向 于 取 值 较 多 的 属性 的 不 足 。 信 息 增 益 率 等 于 信息 增 
益 对 分 割 信息 量 (Split Information) 的 比值 。 

在 选择 决策 树 中 某 个 节点 上 的 分 支 属性 时 ,假设 该 节点 上 的 数据 集 为 X, 其 中 包含 
d 个 描述 属性 ,样本 总 数 为 total。 设 描述 属性 Ar (CF==1,2,…',d) 具 有 4 个 不 同 的 取 值 
{arr ,aar，… ay) ,利用 描述 属性 Ar 可 以 将 数据 集 X 划分 为 g 个 子 集 {Xi ,X。，,…,X,), 其 
中 X,(s 二 1,2,…,g) 中 的 样本 在 Ay 上 具有 相同 的 取 值 cv 。 设 凡 表示 子 集 X, 中 的 样本 数 
量 , 则 描述 属性 Ay 划分 给 定数 据 集 X 的 信息 增益 率 的 定义 如 式 (7-16) 所 示 。 
Gain_ratio( Ay) = GAD, 

在 式 (7-16) 中 ,分 子 Gain(Ay) 的 定义 如 式 (7-15) 所 示 ; 分 母 split(Ay) 的 定义 如 式 (7-17) 
所 示 。 


f=1,2,%d (7-16) 


CY ns 
split(Ay) > tom (wi) f=1,2,%sd (7-17) 


C4.5 选择 信息 增益 率 最 大 的 描述 属性 作为 分 支 属性 。 

C4.5 既 可 以 处 理 离散 型 描述 属性 ,也 可 以 处 理 连续 型 描述 属性 。 在 选择 某 节 点 上 的 分 
支 属性 时 ,对 于 离散 型 描述 属性 ,C4. 5 的 处 理 方法 与 ID3 相同 ,按照 该 属性 本 身 的 取 值 个 数 
进行 计算 ;对 于 某 个 连续 型 描述 属性 A, ,假设 在 某 个 节点 上 的 数据 集 的 样本 数量 为 total， 
C4. 5 将 作 以 下 处 理 。 

(1) 将 该 节点 上 的 所 有 数据 样本 按照 连续 型 描述 属性 的 具体 取 值 ,由 小 到 大 进行 排序 ， 
得 到 属性 值 的 取 值 序列 (Al, As ，… ,A )。 

(2) 在 {Aic ,Az。，… ,Awuae} 中 生成 total 一 1 个 分 割 点 。 第 i(1 委 i 委 total 一 1) 个 分 割 点 的 
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取 值 设置 为 v; 二 (Ai 十 Actv.)/2, 它 可 以 将 该 节点 上 的 数据 集 划 分 为 两 个 子 集 , 即 描述 属性 
A。 的 取 值 在 区 间 [LAi. ,vi ] 的 数据 样本 和 在 区 间 (v; ,A ) 的 数据 样本 。 由 于 描述 属性 A。 的 
取 值 序列 包含 total 一 1 个 分 割 点 ,所 以 它 对 数据 集 的 划分 有 total 一 1 种 方式 。 

(3) 从 total 一 1 个 分 割 点 中 选择 最 佳 分 割 点 。 对 于 每 一 个 分 割 点 划分 数据 集 的 方式 ， 
C4.5 计算 它 的 信息 增益 率 ,并 且 从 中 选择 信息 增益 率 最 大 的 分 割 点 来 划分 数据 集 。 

比较 ID3 算法 ,C4. 5 算法 在 效率 上 有 了 很 大 的 提高 。 不 仅 可 以 直接 处 理 连续 型 属性 ， 
还 可 以 允许 训练 样本 集中 出 现 属性 空缺 的 样本 。 生 成 的 决策 树 的 分 支 也 较 少 。 以 往 的 经 验 
说 明 信 息 增益 率 函 数 比 信息 增益 函数 更 健壮 ,能 稳定 的 选择 好 的 测试 。 


4. 决策 树 的 剪 枝 技术 


在 决策 树 创建 时 ,由 于 数据 中 的 噪声 和 孤立 点 ,许多 分 支 反 应 的 是 训练 数据 中 的 异常 。 
剪 枝 方法 处 理 这 种 过 分 适应 数据 问题 ,防止 决策 树 过 度 复杂 。 下 面 对 决 策 树 修剪 技术 的 相 
关 知 识 进行 介绍 。 

寻找 最 小 决策 树 是 NP 完全 问题 ,所 以 在 现实 中 不 可 能 找到 绝对 最 小 决策 树 。 只 能 通 
过 分 析 那 些 使 得 决策 树 变 得 过 于 庞大 的 原因 ,来 寻找 一 些 技术 来 对 决策 树 实施 剪 枝 ,决策 树 
剪 枝 的 方法 很 多 ,最 常用 的 技术 有 先 剪 枝 和 后 剪 枝 。 

(1) 先 剪 枝 通过 提前 停止 树 的 构造 而 对 树 进 行 剪 枝 。 如 果 一 个 节点 对 样本 的 划分 将 导 
致 低 于 预定 义 阀 值 的 分 裂 , 则 给 定子 集 的 进一步 划分 将 停止 。 选 取 一 个 适当 的 阀 值 是 很 困 
难 的 , 较 高 的 阁 值 可 能 导致 过 分 简化 的 树 , 较 低 的 阀 值 可 能 使 得 树 的 化 简 太 少 。 由 于 预 前 枝 
不 必 生 成 整 棵 决策 树 , 且 算法 相对 简单 ,效率 很 高 ,适合 解决 大 规模 问题 ,所 以 这 种 方法 得 到 
广泛 的 应 用 。 

(2) 后 剪 枝 对 已 经 建 好 的 决策 树 进行 剪 枝 。 后 剪 枝 方法 最 初 由 Breiman 等 人 提出 , 主 
要 是 通过 不 断 的 修改 子 树 为 叶 节 点 。 目 前 ,后 剪 枝 方法 已 经 得 到 了 广泛 的 讨论 ,并 在 实际 中 
得 到 成 功 的 应 用 。 

也 可 以 交叉 使 用 先 剪 枝 和 后 剪 枝 ,形成 组 合式 方法 。 


5. 决策 树 的 性 能 评价 


在 决策 树 的 学 习 算法 当中 ,决策 树 的 复杂 度 和 分 类 精度 是 需要 考虑 的 两 个 最 重要 的 因 
素 , 下 面 是 决策 树 的 性 能 评价 标准 。 

(1) 预测 准确 性 。 该 指标 描述 分 类 模型 准确 预测 新 的 或 未 知 的 数据 类 的 能 力 。 经 分 类 
发 现 模型 处 理 后 ,从 数据 中 得 到 的 信息 的 准确 程度 不 同 。 这 在 很 大 程度 上 将 会 影响 决策 人 
员 决 策 制定 的 准确 性 。 

(2) 描述 的 简洁 性 。 这 是 针对 分 类 发 现 模型 对 问题 的 描述 方式 以 及 该 描述 方式 的 可 理 
解 水 平 提出 的 。 分 类 发 现 模型 的 最 终 目 的 是 方便 决策 人 员 的 使 用 ,所 以 ,对 于 决策 人 员 来 
说 ,模型 描述 越 简洁 ,也 就 越 易 于 理解 ,同时 也 就 越 受 欢迎 。 

(3) 计算 复杂 性 。 计 算 复杂 性 依赖 于 具体 的 实现 细节 。 在 数据 挖掘 中 ,由 于 操作 对 象 
是 海量 的 数据 库 , 因 此 空间 和 时 间 的 复杂 性 将 是 非常 重要 的 一 个 问题 ,将 直接 影响 生成 与 使 
用 模型 的 计算 成 本 。 
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(4) 模型 强健 性 。 强 健 性 是 对 模型 预测 准确 性 的 一 个 补充 ,是 在 存在 噪声 及 数据 缺损 
的 情况 下 ,准确 对 未 知 其 类 的 数据 进行 分 类 的 能 力 。 

(5) 处 理 规 模 性 。 处 理 规 模 性 是 指 在 巨 量 数据 的 情况 下 ,构造 模型 的 能 力 以 及 构造 分 
类 模型 的 精确 度 。 数 据 挖掘 所 处 理 的 对 象 数量 是 巨大 的 ,那么 就 要 求 所 构建 的 挖掘 模型 可 
以 适用 于 各 种 不 同 规模 的 数据 量 情况 。 


7.3.3 贝 叶 斯 分 类 


贝 叶 斯 分 类 是 一 种 基于 统计 学 的 分 类 方法 ,可 以 预测 一 个 类 成 员 关 系 的 可 能 性 , 即 给 定 
样本 属于 一 个 特定 类 的 概率 。 数 据 挖掘 领域 主要 使 用 两 种 贝 叶 斯 方法 , 即 朴素 贝 叶 斯 方法 
和 贝 叶 斯 网 络 方法 。 前 者 使 用 贝 叶 斯 公式 进行 预测 ,假定 各 个 属性 之 间 是 独立 的 ,然后 利用 
贝 叶 斯 公式 及 有 关 概 率 公 式 计 算 各 实例 的 条 件 概率 值 , 并 选取 其 中 概率 值 最 大 的 类 别 作为 
预测 值 。 此 方法 简单 易 行 且 精度 较 好 。 后 者 是 一 个 带 注释 的 有 向 无 环 图 ,以 有 效 表 示 大 变 
量 集 的 联合 概率 分 布 , 适 用 于 分 析 大 量变 量 之 间 的 相互 关系 ,利用 贝 叶 斯 公式 的 学 习 和 推理 
能 力 ,实现 预测 、 分 类 等 数据 挖掘 任务 。 贝 叶 斯 理论 已 用 于 文档 分 类 、 医 疗 诊断 、 预 测 .推理 
和 归纳 等 数据 挖掘 应 用 中 。 


1. 贝 叶 斯 定理 


设 X 是 类 标号 未 知 的 数据 样本 ,五 为 某 种 假定 ,如 数据 样本 X 属于 某 个 特定 的 类 。 分 
别 用 P(HIX)、P(XIH)、P(H)、P(X) 表 示 条 件 X 下 昌 的 后 验 概率 、 条 件 电 下 XX 的 后 验 
概率 、HH 的 先 验 概率 、X 的 先 验 概率 。 由 贝 叶 斯 定理 可 知 : 


PX | HPH) 


P(H | X) = POX) 


(7-18) 


2. 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 的 工作 过 程 如 下 : 

(1) 给 定 一 个 具有 个 属性 的 数据 样本 集 。 每 个 数据 样本 用 一 个 n 维 向 量 X= (xi， 
Tz," ,Ts 表示, 向 量 的 每 个 分 量 zx; 分 别 是 样本 的 对 应 属性 a; 的 值 。 

(2) 假定 有 m 个 类 C1,…,C。。 对 于 数据 样本 X, 分 类 法 预测 X 属于 C; 当 且 仅 当 
P(Ci|X)P(C;|X),1j 二 m,j 关 i。 根据 贝 叶 斯 定理 : 
PX OYE 

PX 


由 于 P(X) 对 于 所 有 的 类 都 是 常数 ,因此 ,只 需 最 大 化 P(X1C;)P(C;), 就 可 以 找到 样 
本 X 应 该 被 分 配 的 类 。 如 果 类 的 先 验 概 率 未 知 ,通常 假定 这 些 类 是 等 概率 的 ,这 样 , 需 最 大 
化 P(X1Ci) ,就 可 以 找到 样本 X 应 该 被 分 配 的 类 。 注 意 ,类 C; 的 先 验 概率 可 以 用 类 中 的 样 
本 数 S; 和 训练 样本 总 数 S 的 商 计 算 求 得 , 即 P(Ci) 王 Si/S。 

(3) 计算 PCX1Ci)。 朴 素 贝 叶 斯 分 类 假设 类 条 件 独立 , 即 属性 之 间 不 存在 依赖 关系 。 


P(CC | X) = 


这 样 


P(X|1C) = [zc lcCo) (7-19) 
k=1 
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如 果 as 是 分 类 属性 , 则 p(xrs1Ci) 二 Sa/S;, 其 中 Ss 是 类 C; 中 属性 ax 上 具有 值 zx 的 训 
练 样本 数 ,S; 是 C; 中 的 训练 样本 数 。 如 果 wx 是 连续 值 属性 ,通常 假设 该 属性 服从 高 斯 分 
布 , 即 


1 Gp 


Ce (7-20) 


P(X | Ci) = g(xisp 10.) = 
2 2rc。 


式 中 ,mw sos 分 别 是 平均 值 和 标准 差 。 
(4) 将 样本 X 归 类 。 


3. 贝 叶 斯 网 络 


朴素 贝 叶 斯 算法 假设 类 条 件 独 立 , 当 假定 成 立时 ,该 算法 很 精确 。 然 而 ,在 实践 中 变量 
之 间 有 时 存在 依赖 。 贝 叶 斯 网 络 提供 了 一 种 因果 关系 图 形 ,可 以 在 其 上 学 习 并 根据 学 习 结 
果 进 行 分 类 。 它 克服 了 朴素 贝 叶 斯 分 类 方法 无 法 定义 变量 之 间 的 依赖 关系 的 弱点 。 

贝 叶 斯 网 络 又 称 为 信念 网 络 、 因 果 网 络 等 ,是 描述 随机 变量 (事件 ) 之 间 依赖 关系 的 一 种 
图 形 模式 ,是 一 种 用 来 进行 推理 的 模型 。 贝 叶 斯 网 络 通 过 有 向 图 的 形式 来 表示 随机 变量 间 
的 因果 关系 ,并 通过 条 件 概 率 将 这 种 关系 数量 化 ,可 以 包含 随机 变量 集 的 联合 概率 分 布 ,是 
一 种 将 因果 知识 和 概率 知识 相 结合 的 信息 表示 框架 ,使 得 不 确定 性 推理 在 逻辑 上 变 得 更 为 
清晰 ,理解 性 更 强 。 

贝 叶 斯 网 络 由 网 络 结构 和 条 件 概率 表 两 部 分 组 成 。 贝 叶 斯 网 的 网 络 结构 是 一 个 有 向 无 
环 图 ,由 节点 和 有 向 弧 段 组 成 。 每 个 节点 代表 一 个 事件 或 者 随机 变量 ,变量 值 可 以 是 离散 的 
或 连续 的 ,节点 的 取 值 是 完备 互 斥 的 。 表 示 起 因 的 假设 和 表示 结果 的 数据 均 用 节点 表示 。 
在 概率 推理 中 ,随机 变量 用 于 代表 世界 上 的 事物 或 者 事件 ,可 以 是 任何 问题 的 抽象 ,通过 将 
这 些 随 机 变量 实例 化 成 各 种 实例 ,就 可 以 对 世界 上 现存 的 状态 进行 建 模 。 节 点 间 的 有 向 弧 
段 代表 随机 变量 间 的 因果 关系 或 概率 依赖 关系 。 弧 段 是 有 向 的 ,不 构成 回路 。 

在 数据 挖掘 中 , 贝 叶 斯 网 络 可 以 处 理 不 完整 和 带 有 噪声 的 数据 集 , 它 用 概率 测度 的 权重 
来 描述 数据 间 的 相关 性 ,从 而 解决 了 数据 间 的 不 一 致 性 ,甚至 是 相互 独立 的 问题 ;用 图 形 的 
方法 描述 数据 间 的 相互 关系 ,语义 清晰 、 可 理解 性 强 ,这 有 助 于 利用 数据 间 的 因果 关系 进行 
预测 分 析 。 


7.3.4 神经 网 络 方法 


神经 网 络 (Neural Network, NN) 是 人 们 在 模仿 人 脑 处 理 问 题 的 过 程 中 发 展 起 来 的 一 种 
新 型 智能 信息 处 理 理论 。 它 通过 大 量 的 称 为 神经 元 的 简单 处 理 单 元 构成 非 线性 动力 学 系 
统 ,对 人 脑 的 形象 思维 、 联 想 记忆 等 进行 模拟 和 抽象 ,实现 与 人 脑 相似 的 学 习 、 识 别 、 记 忆 等 
信息 处 理 能 力 。 

神经 网 络 由 于 具有 和 良好 的 非 线性 映射 能 力 和 对 任意 函数 的 准确 逼近 能 力 , 用 于 分 类 问 
题 往往 能 获得 很 高 的 分 类 精度 ,因而 被 公认 为 分 类 性 能 最 好 的 分 类 方法 之 一 。 神 经 网 络 具 
有 优良 的 鲁 棒 性 ,在 噪声 环境 下 也 能 很 好 地 完成 分 类 任务 。 另 外 , 同 粗糙 集 理 论 一 样 , 神 经 
网 络 也 无 需 提 供 被 分 析 数 据 之 外 的 任何 先 验 信 息 。 
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1. 神经 网 络 及 其 学 习 方 法 


神经 网 络 是 指 由 大 量 神经 元 互 连 而 成 的 网 络 , 有 点 像 服务 器 互 连 而 成 的 因特网 。 它 由 
“神经 元 ”的 互 连 或 按 层 组 织 的 节点 构成 。 通 常 ,神经 
网 络 模型 由 三 个 层次 组 成 : 输入 层 、 中 间 层 ( 亦 称 隐 
层 ) 和 输出 层 ,如 图 7.7 所 示 。 在 每 一 个 神经 元 求 得 
输入 值 后 ,再 汇总 计算 总 输入 值 , 由 过 滤 机 制 比 较 总 
输入 值 ,然后 确定 网 络 的 输出 值 。 当 修改 连接 层 的 
输入 层 隐 含 层 输出 层 “ 接 度 ” 或 权 值 时 ,神经 网 络 就 实现 了 学 习 或 “训练 ”。 
图 7.7 神经 网 络 神经 网 络 将 每 一 个 连接 看 做 是 一 个 处 理 单 元 
(PE) ,试图 模拟 人 脑 神 经 元 的 功能 。 处 理 单元 (PE) 
采用 一 系列 数学 函数 ,通过 汇总 和 转换 对 数据 进行 处 理 。 一 个 PE 的 功能 有 限 , 但 是 多 个 
PE 连接 成 系统 后 ,就 可 以 创建 一 个 智能 模型 。PE 能 够 以 多 种 方式 进行 连接 ,为 能 够 精确 
地 拟 合 建 模 数据 ,可 能 需要 反复 训练 多 次 ,甚至 成 百 上 千 次 。 处 理 单元 PE 需要 与 输入 / 输 
出 层 的 单元 进行 连接 ,在 网 络 的 训练 过 程 中 ,对 输入 单元 和 输出 单元 的 连接 强度 ( 权 值 ) 进 行 
修改 ,其 修改 值 的 变化 是 根据 它 对 所 产生 结果 的 重要 性 来 确定 。 连 接 的 强度 依赖 于 在 反复 
训练 过 程 中 赋予 它 的 权 值 。 训 练 过 程 采用 称 为 学 习 规 则 的 数学 方法 调节 权 值 。 神 经 网 络 的 
训练 根据 历史 样本 数据 反复 进行 ,训练 过 程 中 PE 对 数据 进行 汇总 和 转换 ,它们 之 间 的 连接 
被 赋予 不 同 的 权 值 。 为 对 一 个 样本 进行 预测 ,需要 对 网 络 尝试 各 种 不 同 的 方案 。 当 输出 结 
果 与 已 知 结果 的 吻合 达到 一 定 的 精度 或 满足 其 他 的 结束 准则 时 ,就 停止 对 网 络 的 训练 。 此 
时 网 络 就 可 以 用 来 对 所 需要 分 析 的 数据 进行 处 理 了 。 
神经 网 络 的 主要 任务 就 是 对 外 部 世界 进行 建 模 , 并 通过 学 习 使 模型 与 外 部 环境 充分 一 
致 从 而 达到 完成 特定 应 用 的 目的 。 学 习 的 实质 就 是 使 神经 元 之 间 的 权重 随 外 部 激励 (环境 ) 
作 自 适应 变化 。 神 经 网 络 的 基本 学 习 方法 有 以 下 几 种 。 
1) 误差 矫正 学 习 
误差 矫正 学 习 是 指 当 神经 网 络 的 实际 输出 与 目标 输出 产生 误差 时 ,利用 误差 信号 来 矫 
正 调整 神经 元 之 间 的 连接 权重 ,通过 这 样 一 个 迭代 序列 矫正 过 程 ,使 得 神经 网 络 的 输出 逐渐 
逼近 理想 的 期 望 输出 。 这 可 以 通过 最 小 化 代价 函数 或 性 能 指标 来 实现 ,代价 函数 一 般 定 义 
为 信号 误差 的 平方 。 前 向 网 络 通常 采用 误差 矫正 学 习 方法 。 
2) Hebbian 学 习 
Hebbian 学 习 规 则 可 简单 描述 为 : 如 果 一 个 神经 元 从 另 一 神经 元 接受 输入 激励 信号 ， 
并 且 两 者 均 处 于 高 激励 电 平 (数学 上 就 是 两 者 的 符号 相同 ) 时 , 则 这 两 个 神经 元 之 间 的 权重 
就 应 当 增 强 。 
3) 竞争 学 习 
竞争 学 习 是 指 在 训练 过 程 中 ,所 有 神经 元 均 参与 彼此 间 的 竞争 ,竞争 过 程 按 照 “ 胜 者 为 
王 ”(winner-take-all) 的 竞争 抉择 算法 , 即 竞 争 结束 后 ,只 有 获胜 的 神经 元 输出 为 1, 指 示 此 
次 输入 模式 所 属 类 别 , 并 对 与 其 相连 的 权重 进行 相应 的 调整 ;而 所 有 其 他 未 获胜 的 神经 元 的 
输出 为 0, 与 这 些 神经 元 相连 的 权重 保持 不 变 。 
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4) 随机 学 习 

随机 学 习 规则 是 利用 随机 过 程 、 概 率 和 能 量 关 系 来 调节 连接 权重 。 其 基本 思想 是 : 
在 随机 训练 过 程 中 ,随机 改变 一 权重 ,确定 权重 改变 后 产生 的 最 终 能 量 , 并 按 下 列 准则 来 
确定 是 否 保留 此 权重 的 变化 : 如 果 网 络 能 量 降低 了 , 则 保留 这 一 变化 ;如 果 能 量 并 没有 降 
低 , 则 根据 预选 的 概率 分 布 来 保留 这 一 改变 ;否则 则 拒绝 这 一 改变 ,使 权重 恢复 到 原来 
的 值 。 

5) 基于 存储 器 的 学 习 

在 基于 存储 器 的 学 习 中 ,所 有 用 来 训练 网 络 的 输入 输出 映射 以 及 实现 这 个 目标 映射 的 
相关 先 验 数据 都 需要 存储 在 存储 器 中 。 基 于 存储 器 的 学 习 包 含 基本 的 两 部 分 : 测试 模式 数 
据 的 局 部 近邻 的 定义 和 应 用 于 此 训练 模式 的 学 习 规 则 。 最 近邻 规则 近邻 规则 是 典型 的 
基于 存储 器 的 学 习 规则 。 


2. 神经 网 络 的 特点 和 分 类 


神经 网 络 之 所 以 具有 如 此 广阔 的 应 用 和 发 展 前 景 , 是 与 它 所 独 有 的 特点 分 不 开 的 。 神 
经 网 络 具有 如 下 特点 : 

(1) 大 规模 并 行 处 理 。 神 经 网 络 具 有 并 行 处 理 的 特征 ,大 大 提高 了 工作 速度 。 

(2) 非 线性 处 理 。 神 经 网 络 方法 本 身 属 于 非 线 性 模型 ,能够 适应 各 种 复杂 的 数据 关系 。 

(3) 自 组 织 及 自 适应 性 。 能 够 在 学 习 过 程 中 自 适应 地 发 现 蕴含 在 样本 数据 中 的 内 在 特 
性 及 规律 ;能 够 比 很 多 分 类 算法 更 好 地 适应 数据 空间 的 变化 。 

(4) 分 布 式 存储 ,存储 与 计算 相 结合 。 信 息 储存 在 神经 元 之 间 连 接 强 度 的 分 布 上 ( 即 权 
值 和 阔 值 ) ,存储 区 与 运算 区 合 为 一 体 。 

(5) 联想 能 力 。 具 有 很 强 的 “容错 性 ”和 联想 记忆 功能 ,局 部 的 神经 元 受 损 并 不 影响 整 
个 网 络 的 正常 工作 。 

由 于 分 类 标准 的 不 同 , 神 经 网 络 有 多 种 分 类 方法 。 按 照 神 经 元 互 连 模式 的 不 同 , 神 经 网 
络 通常 分 为 两 种 典型 的 网 络 结构 。 

(1) 前 向 网 络 ( 前 馈 网 络 ) 

网 络 可 划分 为 若干 “ 层 ”, 各 层 依次 排列 ,通常 情况 下 ,第 i 层 的 神经 元 只 接受 第 (i 一 1) 
层 神 经 元 给 出 的 信号 ,各 神经 元 之 间 没 有 反馈 。 输 入 节点 层 与 输出 节点 层 统称 为 “可见 层 ”， 
而 其 他 中 间 层 则 成 为 “ 隐 含 层 ”, 这 些 神 经 元 称 为 隐 单 元 。 

(2) 反馈 网 络 

反馈 网 络 与 前 向 网 络 的 重要 区 别 在 于 反馈 网 络 至 少 有 一 个 反馈 连接 。 反 馈 连 接 既 可 以 
是 异 反馈 (一 个 神经 元 的 输出 反馈 到 其 他 神经 元 作为 输入 ) ,也 可 以 是 自 反 馈 ( 一 个 神经 元 的 
输出 反馈 到 自身 作为 输入 ) 。 同 时 网 络 中 还 可 以 有 计算 功能 的 隐 神 经 元 。 


3. 后 向 传播 模型 (Back Propagation.BP) 及 其 算法 


BP 网 络 是 一 种 多 层 前 馈 神经 网 络 , 因 使 用 误差 反 向 传播 算法 即 BP 算法 进行 学 习 而 得 

名 。BP 网 络 是 神经 网 络 中 应 用 最 为 广泛 的 一 种 网 络 模型 ,在 预测 和 分 类 等 方面 很 适用 。 
按照 网 络 的 拓扑 结构 和 运行 方式 ,神经 网 络 模型 分 为 前 馈 多 层 式 网 络 模 型 .反馈 递归 式 
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网 络 模型 随机 型 网 络 模型 等 。 目 前 应 用 比较 成 熟 的 模型 是 前 馈 多 层 式 网 络 中 的 BP 反 向 
传播 模型 。 从 结构 上 看 ,BP 网 络 是 典型 的 多 层 网 络 , 它 分 为 输入 层 、 隐 层 和 输出 层 , 层 与 层 
之 间 多 采用 全 互 连 方式 , 隐 层 可 以 包含 一 层 或 多 层 网 络 。 典 型 的 BP 神经 网 络 的 隐 层 只 有 
一 层 , 即 三 层 前 馈 神经 网 络 。BP 网 络 的 学 习 规则 通常 采用 的 是 1949 年 心理 学 家 Hebb 提 
出 的 Hebb 学 习 规 则 。BP 算法 是 目前 最 为 广泛 .最 具 影响 的 人 工 神经 网 络 学 习 算 法 之 一 ， 
包括 正 向 计算 和 反 向 传播 , 正 向 计算 从 输入 层 到 隐 层 ,再 到 输出 层 , 输 出 层 输出 的 结果 与 理 
想 输 出 的 误差 车 未 满足 精度 要 求 , 则 从 输出 层 到 隐 层 、 隐 层 到 输入 层 调整 网 络 权 值 ,如 此 反 
复 ,直到 网 络 收敛 。 

BP 网 络 学 习 过 程 由 两 部 分 组 成 : 一 是 正 向 信和 号 传输 ;二 是 反 向 误差 传输 。 具 体 的 算法 
描述 如 下 。 

设 网 络 的 输入 学 习 样 本 为 已 个 ,并 假定 获得 的 样本 输入 数据 都 已 经 标准 化 了 。 输 入 向 
量 为 x;(i 二 1,2,…,n) ,期 望 输出 为 (k= 二 1,2,…,gq), 输 入 层 至 隐 含 层 连接 权重 ww (一 1， 
2,…,n35j 二 1,2，,…,m), 隐 含 层 至 输出 层 连接 权重 为 vj (j= 二 1,2,…,m;k 二 1,2,…,g), 隐 伟 
层 神 经 元 的 阔 值 0G 二 1,2,…,m) ,输出 层 神经 元 的 阔 值 六 (一 1,2,…,9) 。 

(1) 给 定 初始 值 , 即 赋 给 各 连接 权 和 阔 值 任 一 随机 小 值 。 

(2) 将 一 个 样本 输入 网 络 。 

(3) 计算 隐 含 层 神经 元 输出 zx; 和 输出 层 神经 元 输出 wx : 


zj 一 f (2 wri—0;) (7-21) 
i=l 
yr =f (2 vari—r) (7-22) 
j=1 
(4) 计算 输出 层 神经 元 误差 6, 和 隐 含 层 神经 元 误差 di : 
2 一 (不 一 )(1L 一) 《7=23) 
dj; = zj (1 — zj)Ovn (7-24) 
(5) 调整 连接 权 和 阀 值 : 
ws = ws + odjxr: (7-25) 
Uk UA 十 afksi (7-26) 
0; = 0 +pd; (7-27) 
re = r+ Bo (7-28) 
(6) 输入 下 一 个 学 习 样 本 ,返回 (3) ,直至 全 部 学 习 样本 训练 完毕 ,并 计算 误差 和 下， 
p q 
E= 2) >) (to — ym)’/2p (7-29) 


车 误差 和 下 小 于 设 定 的 某 一 精度 s, 则 学 习 结 束 ,和 否则 重新 输入 学 习 样本 后 再 次 学 习 ， 
直至 E<e。 
其 中 ,f(z) 为 变换 函数 ,可 以 采用 以 下 几 种 : 
(1) 阶 跃 函数 
1 zz 安 0 
de 网 让 
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(2) S 型 函数 


l+er™ 
(3) 比例 函数 
f(x) = kr 
(4) 符号 函数 
f(z) = L TX 宇 0 
sy 各 过 从 
(5) 饱和 函数 
1 z> 证 
f(z) = 1 妈 ， 二 于 
加 | z < 一 区 
(6) 双 曲 函数 
1 一 ez 
A 


变换 函数 的 选择 需要 根据 问题 的 特点 来 确定 ,对 于 简单 线性 问题 可 以 用 阶 跃 函数 或 比 
例 函数 ,而 非 线 性 问题 则 可 以 使 用 S 型 函数 或 双 曲 函数 。 

由 于 后 向 传播 模型 具有 良好 的 鲁 棒 性 和 对 大 批量 数据 的 训练 能 力 ,在 数据 分 类 和 预测 
方面 得 到 了 广泛 的 应 用 。 在 数据 分 类 中 ,后 向 传播 模型 可 以 将 数据 库 中 的 数据 映射 到 所 给 
定 的 类 别 。 在 预测 中 , 则 可 以 从 历史 数据 中 自动 推导 出 给 定数 据 的 推广 描述 ,以 对 未 来 的 数 
据 进行 预测 。 

4. 神经 网 络 的 应 用 


人 工 神经 网 络 理论 的 应 用 取得 了 令 人 瞩目 的 进展 ,特别 是 在 人 工 智 能 .自动 控制 .计算 
机 科学 \ 信 息 处 理 、 机 器 人 ,模式 识别 等 方面 都 有 重大 的 应 用 实例 。 下 面 列 出 一 些 主 要 的 应 
用 领域 。 

(1) 模式 识别 和 图 像 处 理 。 包 括 印 刷 体 和 手写 体 字符 识别 、 语 音 识 别 、 签 字 识 别 、 指 纹 
识别 、 人 脸 识 别 、 图 像 压 缩 和 图 像 复 原 等 。 

(2) 控制 和 优化 。 包 括 化 工 过 程控 制 . 机 器 人 运动 控制 .家 电 控 制 半 导体 生产 中 掺 杂 
控制 等 。 

(3) 预报 和 预测 。 由 于 人 工 神经 网 络 方法 可 以 对 非 线 性 系统 进行 计算 ,所 以 在 对 非 线 
性 系统 进行 预测 时 ,常用 优 于 其 他 传统 预测 方法 的 人 工 神经 网 络 方法 。 目 前 ,人 工 神经 网 络 
已 经 应 用 于 地 下 水 质 评价 预测 中 ,并 且 取 得 了 比较 理想 的 效果 。 

图 7. 8 表示 了 一 个 非常 简单 的 神经 元 网 络 图 ,圆圈 表示 节点 ,圆圈 之 间 的 连 线 表 示 连 
接 。 神 经 元 网 络 是 这 样 工作 的 , 它 从 左边 的 节点 获得 预测 属性 值 ,对 于 这 些 值 进行 计算 后 ， 
在 最 右边 的 节点 产生 新 值 ,最 右边 节点 的 值 就 代表 神经 元 网 络 模 型 做 出 的 预测 。 在 这 里 , 神 
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经 网 络 把 年 龄 和 收入 作为 输入 的 预测 属性 来 预测 一 个 人 是 否 会 拖欠 银行 贷款 。 

为 了 进行 预测 ,神经 元 网 络 从 输入 节点 获得 预测 属性 的 值 ,这些 值 称 为 节点 的 值 。 然 后 
节点 与 连接 中 存储 的 值 相 乘 ,得 到 的 值 在 最 右边 节点 相 加 ,再 进行 指定 的 阔 值 运算 ,得 到 的 
数值 就 是 预测 值 。 在 这 里 ,如 果 得 到 的 值 是 零 .就 认为 这 条 记录 的 信用 风险 较 低 ( 无 拖欠 情 
况 发 生 ) ;如果 得 到 的 值 为 1, 就 认为 这 条 记录 的 信用 风险 较 高 (很 可 能 拖欠 贷款 )。 对 图 7.8 
的 计算 进行 标准 化 ,得 到 图 7.9。 这 里 ,年 龄 值 47 被 标准 化 到 0. 0 一 1. 0 之 间 , 变 成 了 0.47， 
而 收入 值 被 标准 化 为 0.65。 这 个 简化 后 的 神经 元 网 络 做 出 的 预测 是 ,收入 为 6500 元 、 年 龄 
为 47 岁 的 顾客 是 否 会 拖欠 贷款 ,连接 权 值 分 别 为 0.7 和 0. 3 ,节点 值 与 连接 权 值 相 乘 后 得 
到 的 结果 为 0.39。 经 过 训练 后 网 络 用 输出 1. 0 表示 拖欠 ,输出 0. 0 表示 不 拖欠 。 这 里 得 到 
的 输出 值 0. 39 更 接近 于 0.0, 因 此 对 这 条 记录 做 出 的 预测 是 不 拖欠 。 


Weight=0.7 


判断 是 否 会 


借贷 拖欠 收入 Weight=0.1 


收入 6500 元 


0.47x0.7+0.65x0.1=0.39 


图 7.8 一 个 简单 的 预测 贷款 拖欠 情况 的 神经 元 网 络 图 7.9 标准 化 后 的 神经 元 网 络 


5， 人工 神经 网 络 的 优 缺点 


人 工 神经 网 络 的 优点 : 

(1) 大 规模 并 行 分 布 式 机 构 ,是 一 个 真正 的 多 输入 多 输出 系统 。 

(2) 神经 网 络 学 习 能 力 以 及 由 此 而 来 的 泛 化 能 力 。 所 谓 泛 化 是 指 神经 网 络 对 不 在 训练 
集中 的 数据 可 以 产生 合理 的 输出 。 这 也 使 它 有 较 强 的 适应 能 力 。 这 两 种 信息 处 理 能 力 使 人 
工 神经 网 络 可 以 解决 一 些 当前 还 不 能 处 理 的 复杂 的 大 型 问题 。 但 是 在 实践 中 ,人 工 神经 网 
络 不 能 单独 做 出 解答 ,它们 需要 被 整合 在 一 个 协调 一 致 的 系统 工程 方法 中 。 具 体 地 讲 , 一 个 
复杂 问题 往往 被 分 解 成 若干 相对 简单 的 任务 ,与 人 工 神经 网 络 处 理 及 其 能 力 相符 的 子 任务 。 
鉴于 这 些 优点 ,人 工 神 经 网 络 方法 在 分 类 识别 方面 有 着 重要 地 位 。 

人 工 神经 网 络 的 缺点 : 

(1) 神经 网 络 易于 受训 练 过 度 的 影响 。 如 果 对 具有 很 强 学 习 功 能 的 神经 网 络 用 支持 这 
种 功能 的 少量 数据 进行 训练 ,开始 时 正如 我 们 希望 的 那样 ,网 络 学 习 的 是 数据 中 的 一 般 趋 
势 , 但 此 后 网 络 却 不 断 地 学 习 训 练 数据 中 非常 具体 的 特征 了 ,这 就 不 是 我 们 所 希望 的 了 。 这 
样 的 网 络 由 于 记 住 了 训练 数据 ,而 缺乏 概括 能 力 。 因 此 在 神经 网 络 技术 中 应 该 通过 定期 检 
查 测试 数据 集 的 结果 ,来 检测 训练 过 度 问题 。 训 练 过 程 初期 ,训练 和 测试 数据 的 误差 都 比较 
小 。 然 而 ,如 果 网 络 的 功能 超过 了 预定 功能 或 是 训练 数据 太 小 ,这 种 情况 就 不 会 继续 下 去 。 
在 训练 过 程 中 ,如 果 测 试 数据 开始 产生 错误 结果 ,而 训练 数据 的 结果 仍然 在 不 断 提高 ,这 就 
说 明 , 出 现 了 训练 过 度 问 题 。 
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(2) 神经 网 络 的 训练 速度 问题 。 构 造 神经 网 络 时 要 求 对 其 训练 许多 遍 , 这 意味 着 要 获 
得 精确 的 神经 网 络 ,需要 花费 很 多 时 间 。 因 此 ,神经 网 络 的 模型 构建 .数据 训练 可 能 会 消耗 
较 多 的 时 间 资 源 。 


7.3.5 近邻 分 类 方法 


模式 分 类 中 最 简单 直观 的 方法 就 是 基于 距离 函数 的 分 类 法 ,其 核心 思想 就 是 使 用 一 个 
类 的 重心 来 代表 这 个 类 ,计算 待 分 类 样本 到 各 类 重心 的 距离 , 归 入 距离 最 近 的 类 。 如 果 人 允许 
类 中 全 部 样本 点 都 有 资格 作为 类 的 代表 的 话 , 这 就 是 最 近邻 法 。 最 近邻 法 不 是 仅仅 比较 与 
各 类 均值 的 距离 ,而 是 计算 与 所 有 样本 点 之 间 的 距离 ,距离 最 近 者 归 入 所 属 类 。 

为 了 克服 最 近邻 法 错 判 率 较 高 的 缺陷 ,将 最 近邻 推广 到 近邻 ,k 近邻 法 不 是 选取 一 个 
最 近邻 进行 分 类 ,而 是 选取 离 待 分 类 样本 最 近 的 个 代表 点 ,然后 根据 这 上 个 代表 点 的 类 别 
信息 来 确定 待 分 类 样本 的 类 别 。 


1. 最 近邻 分 类 方法 


给 定 训练 集 Xues 王 {(ziyy)|1i 王 1,2,…,total), 其 中 数据 样本 zi (一 1,2,…,total) 用 
d 维特 征 向 量 xz; 二 (xa ,x za) 来 表示 ,zayzzy za 分 别 对 应 d 个 描述 属性 Al ,A, ,…， 
As 的 具体 取 值 ;yi;(i 二 1,2,… ,total) 表 示 数 据 样 本 zx; 的 类 标号 ,假设 要 研究 的 分 类 问题 含 
有 mm 个 类 别 , 则 y;€ {ci,co… ,cs)。 最 近邻 分 类 方法 的 操作 步骤 如 下 : 

输入 : 训练 集 Xs ,未 知 类 标号 的 数据 样本 z= (x ,x2，… ,zxa)。 

输出 : 未 知 类 标号 的 数据 样本 x 的 类 标号 。 

(1) 对 于 未 知 类 标号 的 数据 样本 xz, 按照 下 式 计 算 它 与 训练 集 Xs 中 每 一 个 数据 样本 


的 欧 氏 距离 
d 
dl(zsz) = [Dri—zrs):, i= 1,2,.,total 
j=1 


(2) 从 第 (1) 步 中 计算 得 到 的 total 个 欧 氏 距离 中 找 出 最 小 的 距离 。 假 设 d(x ,zx,)(pE 
{1,2,…',total)) 是 xz 与 Xu 中 各 数据 样本 的 最 小 距离 , 则 训练 样本 x 是 x 的 最 近邻 。 

(3) 如 果 第 (2) 步 中 得 到 的 最 近邻 zy 的 类 标号 yp 一 cvE cisco"… ,cw), 则 工 的 类 标号 
为 巧 5 邯 元 全 如 

上 述 分 类 决策 方法 称 为 最 近邻 分 类 方法 。 其 原理 是 : 对 于 未 知 类 标号 的 数据 样本 , 按 
照 欧 氏 距离 找 出 它 在 训练 集中 的 最 近邻 ,并 且 决 策 它 与 最 近邻 属于 同一 个 类 别 。 


2. 大 近邻 分 类 方法 


在 最 近邻 分 类 方法 中 ,如 果 未 知 类 标号 的 数据 样本 在 训练 集中 的 最 近邻 属于 哪 一 个 类 
别 ,就 将 它 判 为 哪 一 个 类 别 。 最 近邻 分 类 方法 容易 实现 ,非常 直观 。 但 是 , 当 数据 集 的 各 个 
类 别 之 间 含 有 噪声 样本 时 ,使 用 最 近邻 分 类 方法 进行 分 类 时 ,比较 容易 受到 噪声 样本 的 干 
扰 。 例 如 , 当 未 知 类 标号 的 数据 样本 的 最 近邻 是 噪声 样本 时 ,分 类 决策 将 是 错误 的 。 

针对 上 述 分 析 , 下 面 介绍 最 近邻 分 类 方法 的 推广 算法 一 -近邻 分 类 方法 。 假 设 给 定 
与 上 节 相 同 的 训练 集 Xe,& 近邻 分 类 方法 的 操作 步骤 如 下 。 


"171 


输入 : 训练 集 Xs ,未 知 类 标号 的 数据 样本 x 二 (zx ,zs，… ,za)。 
输出 : 未 知 类 标号 的 数据 样本 zx 的 类 标号 。 
(1) 对 于 未 知 类 标号 的 数据 样本 zx, 按照 下 式 计算 它 与 训练 集 Xe 中 每 一 个 数据 样本 


的 欧 氏 距离 
d 
d(xszi) | > ) (zi Xs):, i=1,2,.,total 
j=1 


(2) 将 第 (1) 步 中 的 所 有 欧 氏 距离 按照 由 小 到 大 的 顺序 进行 排序 ,并 且 取 前 & 个 距离 ， 
从 而 找 出 工 在 Xu 中 的 个 近邻 ,假设 pi ,ps，… ,pa 分别 是 & 个 近邻 中 属于 类 别 ci,co…， 
cm 的 样本 数量 。 

(3) 如 果 


ps = maxpi, i= 1,2,%,m 
则 z 的 类 标号 为 c,, 即 xEc。 
k 近邻 分 类 方法 的 原理 是 : 对 于 未 知 类 标号 的 样本 ,按照 欧 氏 距离 找 出 它 在 训练 集中 
的 & 个 最 近邻 ,如 果 A 个 近邻 中 多 数 样本 属于 哪 一 个 类 别 ,就 将 它 判 决 为 那 一 个 类 别 。 在 
& 近 邻 分 类 方法 中 ,利用 & 个 近邻 对 未 知 类 标号 的 数据 样本 的 类 别 进行 投票 ,在 一 定 程度 上 
减 小 了 噪声 样本 对 分 类 的 干扰 。 


3. 近邻 分 类 方法 应 用 举例 


例 7-2 给 定 训练 集 为 Xew={(Czyy)1i 一 1,2,…,7)}, 其 中 每 个 训练 样本 x; 是 一 个 
二 维特 征 向 量 ;y;€ {十 1, 一 1) 为 x; 的 类 标号 , 即 训 练 集中 的 数据 样本 包含 两 个 类 别 。 现 
有 X=(1,0)T,xs=(0,0.6)7,xs=(0,—1)T,x=(0,0)T,xs=(0,2)T ,xe =(0,—2)7, 
X71 二 (一 2,0)7, 其 中 y= 二 ys 二 x3 二 十 1 ,y= 二 ys 二 ye 三 yr 1。 对 于 未 知 类 标号 的 数据 样本 
三 (0.4,0)7 ,分别 利 用 最 近邻 分 类 方法 和 近邻 分 类 方法 (k= 二 3) 对 x 进行 分 类 。 

【 解 】 下 面 将 利用 两 种 近邻 分 类 方法 对 x 进行 分 类 。 

(1) 最 近邻 分 类 方法 。 对 于 未 知 类 标号 的 数据 样本 x 二 (0.4,0)" ,计算 它 与 训练 集 
Xuain 中 7 个 训练 样本 的 欧 氏 距离 ,并 且 找 到 最 小 的 距离 。 通 过 计算 可 知 , 数 据 样本 z 与 训练 
样本 x 之 间 的 距离 最 小 ,为 

d(xsx) 《0.4 一 0) 十 (0 一 0) = 0.4 

也 就 是 说 ,zt 是 xz 的 最 近邻 。 因 为 zs 的 类 标号 为 mw 三 一 1, 所 以 最 近邻 方法 将 zx 的 类 
标号 也 标记 为 一 1 。 

(2)& 近邻 分 类 方法 (k= 二 3)。 对 于 未 知 类 标号 的 数据 样本 x 二 (0.4,0)7 ,计算 它 与 训练 
集 Xe 中 7 个 训练 样本 的 欧 氏 距离 ,对 这 些 距离 由 小 到 大 进行 排序 ,并 且 取 前 3 个 。 通 过 
计算 可 知 ,与 x 距离 最 近 的 3 个 训练 样本 为 zz 和 xs。 在 3 个 近邻 中 ,zs 的 类 标号 为 
一 1,x1 和 zs 的 类 标号 为 十 1, 因 为 多 数 近邻 的 类 标号 为 十 1, 所 以 & 近邻 分 类 方法 将 x 的 类 
标号 标记 为 十 1。 

从 例 7-2 中 可 以 看 出 ,对 于 同样 的 训练 集 和 未 知 类 标号 的 数据 样本 ,两 种 近邻 分 类 方法 
对 其 分 类 的 类 标号 不 同 。 在 实际 应 用 中 , 随 着 训练 集 的 不 同 或 者 所 取 & 值 的 变化 ,两 种 方法 
对 未 知 类 标号 的 数据 样本 的 分 类 结果 也 会 发 生 相 应 的 改变 。 
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7.4 数据 聚 类 


聚 类 (clustering) 就 是 将 物理 对 象 或 抽象 对 象 的 集合 分 成 由 相似 对 象 组 成 的 多 个 类 或 
复 。 由 聚 类 生成 的 复 是 一 组 数据 对 象 的 集合 , 篮 必 须 同 时 满足 以 下 两 个 条 件 : 

@ 每 个 簇 至 少 包含 一 个 数据 对 象 。 

@ 每 个 数据 对 象 必 须 属于 且 唯 一 的 属于 一 个 簇 。 

同一 个 复 中 的 数据 对 象 尽 可 能 相似 ,不 同 的 复 中 的 数据 对 象 尽 可 能 相 异 。 在 许多 应 用 
中 ,可 以 将 一 簇 中 的 数据 对 象 作为 一 个 整体 来 对 待 。 

聚 类 是 按照 一 定 的 要 求 和 规律 对 事物 进行 区 分 和 分 类 的 过 程 。 在 这 一 过 程 中 没有 任何 
关于 分 类 的 先 验 知识 ,也 没有 教师 的 指导 , 仅 靠 事物 间 的 相似 性 作为 类 属 划分 的 准则 ,因此 
属于 无 监督 分 类 的 范畴 。 

聚 类 分 析 (cluster analysis) 则 是 指 用 数学 的 方法 研究 和 处 理 给 定 对 象 的 分 类 。 它 主要 
是 从 数据 集中 寻找 数据 间 的 相似 性 ,并 以 此 对 数据 进行 分 类 。 使 得 不 同类 别 中 的 数据 尽 可 
能 相 异 ,而 同一 类 数据 之 间 尽 可 能 相似 ,从 而 发 现 数据 中 隐 含 的 有 用 的 信息 。 


7.4.1 聚 类 分 析 概 述 


聚 类 分 析 是 数据 挖掘 中 一 种 非常 重要 的 技术 ,是 分 析 数 据 并 从 中 发 现 有 用 信息 的 一 种 
有 效 手段 。 它 涉及 许多 研究 领域 ,包括 数据 挖掘 .统计 学 人工 智能 以 及 机 器 学 习 等 。 基 于 
“ 物 以 类 聚 ” 的 朴素 思想 ,按照 一 定 的 聚 类 准则 将 数据 对 象 分 组 成 为 若干 个 类 ,使 得 同一 类 中 
的 对 象 之 间 尽 可 能 相似 ,而 不 同类 中 的 对 象 尽 可 能 相 异 。 通 过 聚 类 ,人 们 能 够 识别 密集 和 稀 
玻 的 区 域 , 发 现 全 局 的 分 布 模式 以 及 数据 属性 之 间 有 趣 的 相互 关系 。 由 于 符合 人 类 认识 世 
界 的 思维 模式 , 聚 类 分 析 广泛 应 用 于 很 多 方面 ,例如 文本 挖掘 .信息 检索 .地 质 学 .图 像 分 割 、 
生物 学 和 客户 关系 管理 等 。 随 着 数据 库 中 存储 的 数据 越 来 越 多 , 聚 类 分 析 已 经 成 为 数据 挖 
掘 中 一 个 非常 活跃 的 研究 课题 。 

聚 类 分 析 是 数据 挖掘 中 的 一 项 重要 功能 ,而 聚 类 算法 是 目前 聚 类 挖掘 领域 研究 的 核心 。 
聚 类 算法 的 质量 取决 于 算法 对 相似 性 的 判别 标准 ,算法 的 具体 实现 以 及 算法 发 现 隐藏 模式 
的 能 力 。 由 于 大 型 数据 库 .数据 仓库 十 分 复杂 ,数据 挖掘 中 的 聚 类 算法 必然 要 面 对 由 此 产生 
的 计算 要 求 ,具体 要 求 如 下 : 

(1) 可 伸缩 性 : 可 伸缩 性 是 指 算法 不 仅 对 小 数据 集 有 效 , 对 大 数据 集 也 应 同样 有 效 。 
目前 许多 到 类 算法 在 小 于 200 个 数据 对 象 的 小 数据 集合 上 工作 得 很 好 ,但 是 一 个 大 规模 的 
数据 库 可 能 包含 几 百 万 个 对 象 ,在 这 样 的 大 数据 集合 样本 上 进行 聚 类 可 能 会 导致 有 偏差 的 
结果 ,我 们 需要 有 高 度 可 伸缩 性 的 聚 类 算法 。 可 伸缩 性 算法 应 该 随 着 数据 库 大 小 的 变化 ,其 
运行 时 间 也 应 该 线性 变化 。 

(2) 处 理 不 同类 型 属性 的 能 力 : 算法 不 仅 要 能 处 理 数值 型 的 数据 ,还 要 有 处 理 其 他 类 
型 字段 的 能 力 , 如 布尔 型 . 枚 举 型 序数 型 ,或 者 这 些 数 据 类 型 的 混合 。 

(3) 发 现任 意 形状 的 簇 : 许多 聚 类 算法 基于 欧 氏 距离 或 曼哈顿 距离 度量 来 决定 聚 类 。 
基于 这 样 的 距离 度量 的 算法 趋向 于 发 现 具有 相近 尺度 和 密度 的 球形 簇 ,但 现实 数据 库 中 的 
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聚 类 可 以 是 任意 形状 ,因此 ,研究 能 发 现任 意 形 状 的 复 的 算法 是 很 重要 的 。 

(4) 输入 参数 对 领域 知识 的 弱 依 赖 性 : 在 聚 类 分 析 当 中 ,许多 聚 类 算法 都 要 求 用 户 输 
入 一 些 参数 ,例如 需要 发 现 的 聚 类 数 。 聚 类 结果 通常 都 对 用 户 输入 这 些 参数 十 分 敏感 ,并 且 
对 高 维 数据 ,这 些 参数 有 时 相当 难以 确定 的 。 这 样 不 仅 加 重 了 用 户 的 负担 ,也 使 得 聚 类 质量 

(5) 能 够 处 理 异 常数 据 : 现实 数据 库 中 常常 包含 有 异常 数据 ,例如 孤立 点 、 未 知 数据 、 
数据 空缺 或 包含 错误 数据 。 有 一 些 聚 类 算法 可 能 会 对 这 些 数 据 很 敏感 ,从 而 导致 低 质 量 的 
分 析 结 果 。 聚 类 算法 必须 能 够 在 聚 类 过 程 中 检测 到 这 些 异 常数 据 , 并 且 删 除 它们 或 消除 它 
们 的 负面 影响 。 

(6) 对 输入 记录 的 顺序 不 敏感 : 有 些 算 法 对 记录 的 输入 顺序 很 敏感 ,对 同一 个 数据 集 ， 
当 以 不 同 的 顺序 输入 时 ,用 同一 个 算法 处 理 可 能 得 到 不 同 的 聚 类 结果 ,这 是 应 当 避 免 的 。 

(7) 满足 约束 条 件 : 在 实际 应 用 当中 , 聚 类 可 能 会 在 有 各 种 约束 的 情况 下 进行 。 对 于 
聚 类 算法 来 说 既 满 足 约束 条 件 , 又 取得 好 的 聚 类 结果 是 非常 具有 挑战 性 的 。 在 这 种 受 约束 
的 情况 下 我 们 希望 聚 类 算法 仍 有 好 的 表现 。 

(8) 可 解释 性 和 可 用 性 : 聚 类 的 结果 最 终 是 面向 用 户 的 ,因此 其 结果 应 当 是 容易 解释 
和 理解 的 ,并 且 是 可 应 用 的 。 这 要 求 聚 类 算法 必须 与 一 定 的 语义 环境 及 语义 解释 相关 联 。 
领域 知识 如 何 影响 聚 类 分 析 算 法 的 设计 是 很 重要 的 一 个 研究 方面 。 

数据 挖掘 的 对 象 复杂 多 样 , 这 就 要 求 聚 类 分 析 的 方法 不 仅 能 够 处 理 属 性 为 数值 类 型 的 
数据 ,还 能 够 处 理 其 他 类 型 的 数据 。 一 般 而 言 , 在 数据 挖掘 中 ,对 象 属性 经 常 出 现 的 数据 类 
型 有 数值 型 .二 值 型 ,符号 型 .序数 型 以 及 混合 类 型 。 不 同类 型 的 数据 有 不 同 的 性 质 , 在 计算 
时 所 采用 的 处 理 手段 是 不 同 的 。 


7.4.2 聚 类 算法 的 分 类 及 其 典型 算法 


目前 聚 类 的 方法 有 很 多 ,总 的 来 说 主要 分 为 以 下 几 种 类 型 : 划分 方法 .层次 方法 、 密 度 
方法 、 网 格 方法 、 模 型 方法 ,模糊 聚 类 。 


1. 基于 划分 的 方法 


划分 聚 类 方法 是 给 定 一 个 个 对 象 或 元 组 的 数据 库 构 建 & 个 划分 的 方法 。 每 个 划分 为 
一 个 聚 复 ,并 且 三 n。 该 方法 将 数据 划分 为 个 簇 ,每 个 簇 同时 满足 以 下 两 个 条 件 : 

Q@ 每 个 艇 至 少 包含 一 个 数据 对 象 。 

@ 每 个 数据 对 象 属于 且 唯 一 的 属于 一 个 簇 (注意 : 但 在 某 些 模糊 划分 技术 中 第 二 个 要 
求 可 以 放宽 )。 

对 于 给 定 划分 数目 ,算法 首先 创建 一 个 初始 划分 ,通常 采用 的 方法 是 随机 选取 个 数 
据 对 象 作为 初始 聚 类 中 心 点 ,然后 采用 一 种 迭代 的 重 定位 技术 ,尝试 通过 对 象 在 划分 间 移 动 
来 改进 划分 ,使 得 每 一 次 改进 之 后 的 分 组 方案 都 比 前 一 次 好 ,判断 划分 好 坏 的 准则 是 : 在 同 
一 个 簇 中 的 数据 对 象 尽 可 能 相似 ,不 同 的 簇 中 的 数据 对 象 尽 可 能 相 异 。 

基于 划分 的 聚 类 算法 是 一 种 基于 扑 山 式 的 优化 搜索 算法 ,此 法 简单 .快速 而 且 有 效 , 但 
是 此 方 亦 存在 不 足 之 处 ,如 对 初始 值 敏感 ,对 输入 顺序 敏感 , 常 陷 入 局 部 最 优等 。 根 据 对 象 
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在 划分 之 间 移 动 的 衡量 参数 和 簇 的 表示 方法 不 同 ,基于 划分 的 聚 类 方法 主要 有 ; & 平 均 算 
法 ,&k 中心 点 算法 .CLARANS 算 法 .PAM 算法 等 。 


2. 基于 层次 的 方法 


层次 的 方法 按 数 据 分 层 建 立 簇 ,形成 一 棵 以 簇 为 节点 的 树 。 根 据 层次 形成 方式 ,层次 的 
方法 可 以 分 为 凝聚 的 和 分 裂 的 层次 方法 。 凝 聚 的 方法 ,也 称 自 底 向 上 的 方法 ,该 方法 从 数据 
点 作为 个 体 簇 开始 ,每 一 步 合 并 两 个 最 接近 的 簇 ,直到 所 有 的 簇 合并 为 一 个 (层次 的 最 上 
层 ) ,或 者 达到 一 个 终止 条 件 。 分 裂 的 方法 ,也 称 为 自 顶 向 下 的 方法 ,该 方法 从 包含 所 有 点 的 
一 个 簇 开始 ,每 一 步 分 裂 一 个 簇 ,最 终 每 个 对 象 在 单独 的 一 个 簇 中 ,或 者 达到 一 个 终止 条 件 。 
层次 聚 类 法 与 划分 聚 类 法 的 区 别 在 于 , 它 并 不 试图 寻找 最 优 的 聚 类 结果 ,而 是 按照 一 定 的 相 
似 性 判别 标准 ,对 最 相似 的 部 分 进行 合并 。 

层次 聚 类 法 简单 直接 .易于 理解 和 应 用 。 它 的 缺陷 在 于 ,一 旦 一 个 步骤 完成 , 它 就 不 
能 被 撤销 ,因此 不 能 更 正 错 误 的 决定 。 为 改进 层次 方法 的 聚 类 质量 ,可 以 考虑 将 层次 聚 
类 与 其 他 的 聚 类 技术 进行 集成 ,形成 多 阶段 聚 类 。 代 表 算 法 有 BIRCH 算法 .CURE 算 
法 .CHAMELEON 算法 等 。 


3. 基于 密度 的 方法 


很 多 算法 中 都 使 用 距离 来 描述 数据 对 象 之 间 的 相似 性 ,前面 提 到 的 两 种 聚 类 方法 就 是 
基于 这 种 相似 性 进行 聚 类 ,这 样 的 聚 类 方法 对 球形 簇 的 聚 类 效果 较 好 ,但 对 任意 形状 的 簇 聚 
类 结果 较 差 ,甚至 无 法 进行 有 效 聚 类 。 为 了 发 现任 意 形状 的 聚 类 结果 ,提出 了 基于 密度 的 聚 
类 方法 。 基 于 密度 的 聚 类 算法 的 主要 思想 是 : 只 要 一 个 区 域 中 的 点 的 密度 超过 某 个 阔 值 ， 
就 把 它 加 到 与 之 相近 的 聚 类 中 去 。 该 类 算法 的 优点 是 : 领域 知识 独立 ;可 以 发 现任 意 形状 
的 类 ;对 初始 值 .数据 输入 顺序 不 敏感 :能 够 有 效 去 除 噪 声 。 不 足 之 处 为 : 要 对 密度 参数 和 
噪声 阔 值 进行 仔细 选择 。 典 型 的 基于 密度 的 聚 类 方法 包括 DBSCAN 算法 .OPTICS 算法 、 
DENCLUE 算法 和 SUBCLUSTER 算法 。 


4. 基于 网 格 的 方法 


基于 网 格 的 方法 是 把 数据 空间 划分 为 有 限 数目 的 单元 ,形成 一 个 网 格 结构 ,所 有 的 聚 类 
操作 都 以 单个 的 单元 为 对 象 在 这 个 网 格 结构 上 进行 的 。 这 种 方法 的 主要 优点 是 处 理 速 度 很 
快 ,其 处 理 时 间 与 数据 对 象 的 数目 无 关 , 只 与 把 数据 空间 分 为 多 少 个 单元 有 关 。 基 于 网 格 的 
聚 类 方法 符合 一 个 好 的 聚 类 算法 的 许多 标准 : 能 有 效 地 处 理 大 数据 集 ; 发 现任 意 形状 的 簇 ; 
成 功 地 处 理 孤 立 点 ;对 输入 顺序 不 敏感 ;不 需要 指定 结果 簇 数目 和 领域 半径 等 输入 参数 ;而 
且 能 处 理 高 维 数据 。 代 表 算 法 有 STING 算法 .CLIQUE 算法 .WAVE-CLUSTER 算法 。 


5. 基于 模型 的 方法 


基于 模型 的 方法 为 每 个 簇 假定 一 个 模型 ,然后 寻找 能 够 很 好 满足 这 一 模型 的 数据 集 。 

一 个 基于 模型 的 算法 可 能 通过 构建 反映 数据 点 分 布 的 密度 函数 来 定位 聚 类 。 基 于 模型 的 聚 

类 方法 试图 优化 给 定 的 数据 和 某 些 数学 模型 之 间 的 适应 性 。 这 样 的 方法 经 常 是 基于 这 样 的 
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假设 : 数据 是 根据 潜在 的 概率 分 布 生成 的 。 基 于 模型 的 方法 主要 分 两 类 : 统计 学 方法 和 神 
经 网 络 方法 。 


6. 模糊 聚 类 


前 面 介绍 的 几 种 聚 类 算法 可 以 给 出 确定 的 聚 类 结果 , 即 一 个 数据 点 必须 属于 且 唯 一 的 
属于 一 个 类 。 这 些 聚 类 方法 称 为 “确定 性 聚 类 ”。 然 而 ,在 大 部 分 情况 下 存在 着 大 量 界限 并 
不 分 明 的 聚 类 问题 , 随 着 模糊 集 理论 的 提出 ,模糊 聚 类 应 运 而 生 。 在 模糊 聚 类 中 ,每 个 样本 
不 再 仅 属于 某 一 类 而 是 以 一 定 的 隶属 度 属于 每 一 类 。 换 句 话说 ,通过 模糊 聚 类 分 析 , 得 到 了 
样本 属于 各 个 类 别 的 不 确定 性 程度 , 即 建立 起 了 样本 对 于 类 别 的 不 确定 性 描述 ,这样 就 更 能 
准确 地 反映 现实 世界 。 常 用 的 模糊 聚 类 算法 是 模糊 C 平均 值 算法 (Fuzzy C-Means,FCM)， 
该 算法 是 在 传统 的 k-means 基础 上 引入 了 模糊 理论 。 

FCM 算法 的 正面 特征 是 , 它 产生 指示 任意 点 属于 任意 簇 的 程度 的 聚 类 。FCM 算法 比 
k-means 算法 具有 更 好 的 可 分 离 性 。 除 此 以 外 , 它 具 有 与 k-means 算法 相同 的 优点 和 缺点 。 


7.4.3 聚 类 分 析 中 的 相似 度 度量 方法 


对 象 间 的 相似 性 是 聚 类 的 核心 ,而 对 相似 性 进行 度量 是 区 别 对 象 的 主要 基础 ,相似 度 度 
量 方法 主要 有 两 类 , 即 距离 和 相似 系数 。 距 离 通 常用 于 数值 型 数据 ,距离 越 接 近 0, 相 似 性 
越 大 ;相似 系数 通常 用 于 分 类 型 数据 ,相似 系数 越 接近 1, 相 似 性 越 大 。 


1. 距离 


距离 是 聚 类 分 析 常 用 的 分 类 统计 量 。 假 设 每 个 对 象 有 mx 个 属性 ,可 以 把 一 个 对 象 视 为 
m 维 空间 的 一 个 点 ,n 个 对 象 就 是 m 维 空间 的 n 个 点 。 从 直观 上 看 ,属于 同一 类 的 对 象 在 空 
间 中 应 该 互相 靠近 ,而 不 同类 的 对 象 之 间 应 该 相互 远离 ,因此 ,很 自然 地 想到 用 点 之 间 的 距 
离 来 衡量 对 象 之 间 的 相似 程度 。 距 离 越 小 ,对 象 间 的 相似 度 就 越 大 。 设 di 为 对 象 +; 和 对 
象 x; 之 间 的 距离 , 则 必 应 该 满足 以 下 三 个 性 质 ， 

(1) 非 负 性 : 即 对 于 任意 对 象 i\j 恒 有 di; 宇 0; 当 且 仅 当 x;=zxj 时 ,dj 二 0。 

(2) 对 称 性 : 即 对 于 任意 对 象 i\j 恒 有 ds; 二 di;。 

(3) 三 角 不 等 式 : 即 对 于 任意 对 象 i\j.k 恒 有 ds; 三 di 十 di 。 

在 聚 类 分 析 中 ,常用 的 距离 公式 有 以 下 几 个 : 

(1) 明科 夫 斯 基 距 离 


ds = (S | sa =zn 1 qd 二 0 (7-30) 
一 1 


如 果 取 4=1,2,== 时 , 则 分 别 得 到 以 下 三 个 距离 ， 
(2) 曼哈顿 距离 


| zs = (7-21 
(3) 欧 氏 距离 
(7-32) 
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(4) 切 比 雪夫 距离 
ds = max | za — zx | (7-33) 
在 以 上 的 几 种 距离 中 ,最 常用 的 是 欧 氏 距离 ,其 特点 是 对 坐标 系 进行 平移 和 旋转 变换 之 
后 , 欧 氏 距离 保持 不 变 , 因 此 对 象 仍然 保持 原来 的 相似 结构 。 
值得 注意 的 是 在 采用 明科 夫 斯 基 距 离 时 ,一 定 要 采用 相同 量 纲 的 变量 。 如 果 变 量 的 量 
纲 不 同 ,测量 值 变化 范围 相差 悬殊 时 ,要 先进 行 数 据 的 标准 化 处 理 , 然 后 进行 计算 距离 。 另 
外 ,明科 夫 斯 基 距 离 没 有 考虑 变量 的 多 重 相关 性 。 


2. 相似 系数 


相似 系数 体现 对 象 之 间 的 相似 程度 ,相似 系数 越 大 ,对 象 的 相似 性 也 越 大 。 对 于 m 维 
空间 中 的 两 个 对 象 x+; 和 zx; ,rj 表示 对 象 i 和 j 之 间 的 相似 系数 ,rj 则 满足 以 下 条 件 : 
(1) 绝对 值 不 大 于 1: 即 对 任意 对 象 i\j 恒 有 |ri | 三 1; 当 且 仅 当 x;==x) 时 ,ri 二 1。 
(2) 对 称 性 : 即 对 任意 对 象 i\j 恒 有 x; 二 rj。 
常用 的 相似 系数 度量 方法 一 般 有 以 下 几 种 形式 : 
(1) 夹 角 余弦 法 
| Dzaza 
放 三 和 = (7-34) 
(学 莹 )( 宛 台 ) 
用 两 个 向 量 之 间 的 余弦 作为 相似 系数 ,范围 为 [一 1,1], 当 两 个 向 量 正 交 时 取 值 为 0, 表 
示 完 全 不 相似 。 
(2) 相关 系数 法 


> (ra 一 五 )(zt 一 万 ) 
福王 2 (7-35) 


式 中 ,五 一 二 ms 五 = 二》 zx, 计算 两 个 向 量 之 间 的 相关 度 ,范围 为 [一 1,1], 其 中 
0 表示 不 相关 ,1 表示 正 相 关 , 一 1 表示 负 相 关 。 
7.4.4 聚 类 分 析 中 的 聚 类 准则 函数 


在 样本 相似 性 度量 的 基础 上 , 聚 类 分 析 还 需要 一 定 的 准则 函数 才能 把 真正 属于 同一 类 
的 样本 聚合 到 一 个 类 中 ,而 把 不 同类 的 样本 分 离开 。 如 果 聚 类 准则 选 得 好 , 聚 类 质量 就 会 
高 。 同 时 , 聚 类 准则 函数 还 可 以 用 来 评价 聚 类 结果 的 质量 ,如 果 聚 类 质量 不 满足 要 求 , 就 要 
重复 执行 聚 类 过 程 , 以 便 优 化 聚 类 结果 。 

常用 的 聚 类 准则 函数 有 误差 平方 和 准则 函数 .加 权 平 均 平方 距离 和 准则 .类 间距 离 和 准 
则 。 误 差 平方 和 准则 函数 适用 于 各 类 样本 比较 密集 且 样 本 数目 悬殊 不 大 的 样本 分 布 。 当 各 
类 样本 数目 悬殊 比较 大 时 ,使 用 加 权 平 均 平方 距离 和 准则 比 使 用 误差 平方 和 准则 容易 得 到 
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正确 的 聚 类 结果 。 类 间距 离 和 准则 函数 描述 了 不 同类 之 间 的 分 离 程度 。 下 面 主要 介绍 误差 
平方 和 准则 函数 。 

误差 平方 和 准则 函数 是 一 种 最 常用 的 聚 类 准则 函数 。 假 设 样本 集 X= {zi ,zs，… ,xn)， 
在 某 种 相似 性 度量 基础 上 , 它 被 聚 类 成 C 个 分 离开 的 类 Xi,X:,…',Xc, 每 个 类 分 别 包括 
my7a ,ye 个 样本 。 衡 量 聚 类 的 质量 误差 平方 和 准则 函数 Jc 定义 为 : 


此 


Jec= 2 > 1z 姑 一 mr (7-36) 


J=1 k=1 


式 中 ,mj(j 二 1,2,…,C) 是 C 个 类 的 聚 类 中 心 , 它 的 取 值 为 每 一 类 中 样本 的 均值 , 即 
mj; 一 La 一 1,2……C 


nj 


j=1 


可 以 看 出 ,Jc 是 样本 和 聚 类 中 心 的 函数 ,在 样本 集 X 给 定 的 情况 下 ,Jc 的 值 取决 于 
C 个 聚 类 中 心 。Jc 描述 个 样本 聚 类 成 C 个 类 时 所 产生 的 总 的 误差 平方 和 。 若 Jc 值 越 
大 ,说 明 误差 越 大 , 聚 类 结果 越 不 好 。 因 此 ,应 该 寻求 使 Jc 最 小 的 聚 类 结果 , 即 在 误差 平方 
和 准则 下 的 最 优 结果 。 这 种 聚 类 通常 称 为 最 小 方差 划分 。 误 差 平 方 和 准则 函数 适用 于 各 类 
样本 比较 密集 且 样 本 数目 悬殊 不 大 的 样本 分 布 。 当 不 同类 的 样本 数目 相差 较 大 时 ,采用 误 
差 平方 和 准则 有 时 可 能 把 样本 数目 多 的 类 分 开 , 以 便 达 到 总 的 误差 平方 和 最 小 。 


7.4.5 k-means 聚 类 算法 


聚 类 分 析 的 研究 成 果 主 要 集中 在 基于 距离 (或 者 称 为 基于 相似 度 ) 的 聚 类 方法 ,用 距离 
来 作为 相似 性 度量 的 优点 是 直观 ,从 我 们 对 物体 的 识别 角度 来 分 析 , 同 类 的 数据 样本 应 该 是 
互相 靠近 的 ,不 同类 的 样本 应 该 相距 较 远 。 划 分 聚 类 方法 是 基于 距离 的 聚 类 方法 中 的 一 种 。 
k-means 聚 类 算法 是 划分 聚 类 方法 中 最 常用 .最 流行 的 经 典 算法 ,许多 其 他 的 方法 都 是 
k-means 聚 类 算法 的 变种 ,该 算法 已 经 被 加 入 到 许多 统计 分 析 工 具 的 软件 包 中 作为 专门 的 
聚 类 分 析 工 具 来 使 用 。k-means 聚 类 算法 将 各 个 聚 类 子 集 内 的 所 有 数据 样本 的 均值 作为 该 
聚 类 的 代表 点 ,算法 的 主要 思想 是 通过 迭代 过 程 把 数据 集 划分 为 不 同 的 类 别 ,使 得 评价 聚 类 
性 能 的 准则 函数 数据 达到 最 优 ,从 而 使 生成 的 每 个 聚 类 类 内 紧凑 ,类 间 独 立 。k-means 聚 类 
算法 不 适合 处 理 离散 型 属性 ,但 是 对 于 连续 型 属性 具有 较 好 的 聚 类 效果 。 

k-means 算法 由 J. B. MacQueen 于 1967 年 提出 ,目前 是 用 于 科学 和 工业 应 用 的 诸多 算 
法 中 的 一 种 极 有 影响 力 的 技术 。k-means 算法 属于 聚 类 分 析 中 的 划分 算法 , 它 是 一 种 已 知 
聚 类 类 别 数 的 算法 。 


1. k-means 算法 思想 


对 于 给 定 的 包含 个 数据 对 象 的 数据 集 , k-means 算法 首先 要 求 用 户 指定 最 终 划分 类 
别 数目 为 &, 然 后 随机 选取 & 个 点 作为 聚 类 中 心 ,计算 剩余 数据 对 象 到 各 聚 类 中 心 的 距离 ， 
利用 距离 最 近 原 则 ,把 数据 对 象 归 到 离 它 最 近 的 那个 聚 类 中 心 所 在 的 类 中 去 , 聚 类 结果 由 
& 个 聚 类 中 心 来 表达 ,基于 给 定 的 聚 类 目标 函数 (或 者 说 是 聚 类 效果 判别 准则 ) ,算法 采用 和 迭 
代 更 新 的 方法 ,每 一 次 迭代 过 程 都 是 朝 目标 函数 值 减 小 的 方向 进行 ,每 一 次 迭代 也 使 得 类 内 
对 象 的 相似 性 越 来 越 大 ,类 间 对 象 的 相似 性 越 来 越 小 。 
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k-means 算法 以 相 邻 两 次 的 聚 类 中 心 没有 任何 变化 ,数据 对 象 调 整 完全 结束 , 聚 类 准则 
函数 J 收敛 作为 终止 条 件 。 该 算法 的 一 个 特点 是 在 每 次 迭代 过 程 中 都 要 检查 每 个 数据 对 
象 的 分 类 是 否 正 确 , 如 果 不 正确 ,就 对 它 进行 重新 分 配 。 在 全 部 数据 分 配 完 后 ,修改 聚 类 中 
心 和 目标 函数 值 ,进入 下 一 次 迭代 。 如 果 在 一 次 迭代 中 ,所 有 的 数据 对 象 被 正确 分 类 , 则 在 
下 一 次 迭代 中 不 会 再 有 数据 对 象 被 重新 分 配 ,那么 聚 类 中 心 也 就 不 会 再 有 任何 变化 ,这 时 标 
志 着 算法 聚 类 结果 达到 最 优 , 至 此 算法 运行 结束 。 

k-means 算法 通常 采用 欧 几 里 德 距离 作为 衡量 相似 性 的 指标 ,采用 误差 平方 和 准则 函 
数 作为 评价 划分 质量 的 目标 函数 。 


2. k-means 算法 流程 


k-means 算法 的 具体 过 程 描述 如 下 : 

(1) 给 定 样本 数据 集 {zi ,x2，… ,x,) 、 类 别 数 ,从 样本 集中 随机 选择 个 点 Ci ,C2 ,…， 
Cx 作为 初始 聚 类 中 心 。 

(2) 计算 剩余 的 每 个 数据 对 象 与 聚 类 中 心 的 距离 DC(zriyc) ,ii 一 1,2, ,5 一 1,2,…， 
k, 如 果 满 足 

D(zisc) 一 min{D(ziyc) ,i = 1,2,.0% ,7n37 = 1,2,°%,k} 

则 将 zx; 划分 到 类 Cu 中 。 

(3) 根据 划分 后 各 集合 中 的 点 计算 新 的 聚 类 中 心 Cr ,C2 ,… ,C7 ,计算 公式 为 : 


of = LD,, j=1,2,,k 


其 路 为 类 Ci 中 点 的 个 数 。 

计算 聚 类 目标 函数 J 。 

(4) 判断 : 如 果 c= 二 cj , 则 表示 数据 划分 没 再 变化 ,此 时 算法 运行 结束 ,当前 中 心 点 为 
最 终 的 聚 类 划分 结果 ;否则 返回 (2) 继 续 执行 。 

为 防止 步骤 (4) 的 终止 条 件 不 能 满足 而 出 现 的 无 限 循环 ,通常 在 算法 执行 时 给 出 一 个 固 
定 的 最 大 迭代 次 数 。 

k-means 算法 描述 如 下 。 

输入 ”数据 对 象 集合 X= {zi zz ,zs) ,要 划分 的 类 别 数 

输出 ”使 目标 函数 最 小 化 的 上 个 类 

从 久 中 随机 选取 个 不 同 的 数据 对 象 作 为 & 个 类 的 初始 聚 类 中 心 ; 


Repeat 
For 每 一 个 样本 x ， 计 1,2,…,n 
计算 x 与 每 个 聚 类 中 心 之 间 的 距离 
将 蒜 分 配给 与 它 距 离 最 近 的 类 CG; 
For 对 划分 好 的 类 别 G ,二 1,2,… ,k 
计算 每 个 类 中 所 有 样本 的 平均 值 ; 
计算 目标 函数 并 
用 当前 G 中 所 有 样本 的 平均 值 蔡 代 上 一 次 的 聚 类 中 心 ; 
Until J 不 再 明显 变化 或 者 聚 类 中 心 不 再 改变 。 
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下 面 给 出 采用 k-means 算法 进行 聚 类 分 析 的 一 个 具体 的 例子 ,以 便 更 好 地 理解 
k-means 算法 。 
给 定数 据 对 象 集合 X={zi(1,1) ,za(1.2,1.2),zs(0.8,1.2),ze(0.9,0.7),zs(1. 3， 
Or gme tlyl dv mt 3 dt L203 203. 4) vzw (2 7953)3z0tS 6 9 类别 
数 & 一 2。 
第 一 次 迭代 ; 选择 第 三 个 数据 对 象 (0. 8,1. 2) 和 第 八 个 数据 对 象 (3. 1,2. 8) 为 类 C; 和 
C; 的 初始 聚 类 中 心 。 对 第 一 数据 对 象 计算 它 到 两 个 聚 类 中 心 的 距离 ; 
| z 一 zs = VC 一 0.8)5 十 (I 一 1.2)5 = 0.283 
lz 一 ze =VG 一 3.1)2 十 (1 一 2.8)2 = 2.766 
由 上 可 知 上 zi 一 zs 过 上 zi 一 xs ,所 以 将 zi 划分 到 zs 所 属 的 类 Ci 。 
同 理 , 将 zs ,zs Ta 5 6 划分 到 Ts 所 属 的 类 Ci ,将 zyyzsyzoyzloyzl 划 分 到 Ts 所 属 
的 类 Ca 。 
根据 划分 好 的 类 中 的 数据 对 象 , 重 新 计算 每 个 类 的 聚 类 中 心 : 


i en en hh ts oh i a Me 
21 6 


= (1.033,1.067) 


(2.8 二 33.4 二 3.3 十 2.9) 
XZ2 
5 


= (2.92,3.08) 
第 二 次 迭代 : 用 z1(1.033,1.067) ,zs(2. 92,3.08) 作 为 类 C, 和 Cs 的 聚 类 中 心 ,重新 对 
数据 集 进 行 划分 。 
Ziyzayzsyziyzyz6 划分 到 zs 所 属 的 类 Ci ,将 zzeyzoyzoyza 划 分 到 xs 所属 的 
类 Cs。 
z1= (1.033,1.067) = zl 
j= (D3 Oa) = 
在 两 次 迭代 过 程 中 ,两 个 类 中 的 数据 对 象 未 发 生 改 变 , 则 停止 欠 代 过 程 。 得 到 的 两 个 聚 


类 为 如 三 {zyzavzeyZo2Z6oZejCs 王 {275ZssZosZiosZay。 
3. k-means 算法 的 特点 


k-means 算法 是 解决 聚 类 问题 的 一 种 经 典 算法 。 该 算法 最 大 的 特点 是 采用 两 阶段 反复 
循环 结构 ,算法 终止 的 条 件 是 不 再 有 数据 对 象 被 重新 分 配 。 两 个 阶段 分 别 是 : 

Q@ 指定 聚 类 类 别 。 即 指定 数据 x; 到 某 一 类 , 它 与 这 个 聚 类 中 心 的 距离 比 它 到 其 他 聚 
类 中 心 的 距离 都 要 小 。 

@ 修改 聚 类 中 心 。 

该 算法 的 主要 优点 是 算法 简洁 、 计 算 速度 快 .资源 消耗 小 。 如 果 结 果 簇 是 密集 的 , 簇 与 
簇 之 间 明 显 分 离 时 , 它 的 聚 类 效果 最 好 ,而 且 对 于 处 理 大 数据 集 ,这 个 算法 是 相对 可 伸缩 和 
高 效 的 。 

其 缺点 主要 包括 以 下 4 方面 : 
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(1) 对 初始 聚 类 中 心 的 选取 和 样本 的 输入 顺序 非常 敏感 。 不 同 的 初始 聚 类 中 心 或 是 样 
本 的 输入 顺序 不 同 使 得 产生 的 聚 类 结果 差别 很 大 。 

(2) 该 算法 采用 每 个 类 中 所 有 对 象 的 平均 值 作为 中 心 ,比较 容易 发 现 球状 簇 ,而 不 容易 
发 现 其 他 形状 的 篮 ,而 且 它 对 于 “噪声 ”和 孤立 点 数据 是 敏感 的 ,少量 的 孤立 点 数据 会 对 计算 
平均 值 产生 很 大 的 影响 ,这 会 使 平均 值得 到 很 大 的 偏离 。 

(3) 在 k-means 算法 中 常 采 用 误差 平方 和 准则 函数 作为 聚 类 准则 ,一 旦 选择 了 准则 函 
数 , 聚 类 问题 就 成 为 一 个 定义 明确 的 优化 问题 ,即使 得 准则 函数 取 极 值 。 所 以 在 运用 误差 平 
方 和 准则 函数 测度 聚 类 效果 时 ,最 佳 聚 类 结果 对 应 于 目标 函数 的 极 值 点 ,由 于 目标 函数 存在 
着 许多 局 部 极 小 点 ,而 算法 的 每 一 步 都 是 沿 着 目标 函数 减 小 的 方向 进行 , 若 初始 化 落 在 了 一 
个 局 部 极 小 点 附近 ,就 会 造成 算法 在 局 部 极 小 处 收敛 。 

(4) 从 k-means 算法 流程 可 以 看 出 ,该 算法 在 运行 过 程 中 需要 不 断 地 进行 样本 分 类 调 
整 ,不 断 地 计算 调整 后 的 新 的 聚 类 中 心 。 因 此 , 当 数 据 量 非常 大 时 ,算法 的 时 间 开 销 是 非常 
大 的 。 所 以 需要 对 算法 的 时 间 复 杂 度 进行 分 析 改进 ,提高 算法 应 用 范围 。 


7.5 遗传 算法 


遗传 算法 (Genetic Algorithm,GA) 是 模拟 自然 界 生 物 进化 过 程 的 随机 化 搜索 算法 , 它 
以 很 强 的 解决 问题 能 力 和 广泛 的 适应 性 渗透 到 研究 与 工程 的 各 个 领域 ,并 得 到 了 良好 的 效 
果 。 目 前 ,GA 的 研究 已 成 为 国际 学 术 界 跨 学 科 的 热门 话题 之 一 。 遗 传 算法 作为 一 种 高 效 
的 全 局 并 行 搜索 优化 算法 ,已 经 在 优化 、 人 工 智能 、 过 程控 制 和 并 行 处 理 等 领域 得 到 了 广泛 
的 应 用 ,在 数据 挖掘 领域 的 应 用 也 越 来 越 得 到 重视 。 


7.5.1 遗传 算法 的 基本 术语 


由 于 遗传 算法 是 自然 遗传 学 和 计算 机 科学 相互 结合 渗透 而 成 的 新 的 计算 方法 ,因此 遗 
传 算法 中 经 常 使 用 自然 进化 中 有 关 的 一 些 基 本 术语 。 了 解 这 些 用 语 对 理解 遗传 算法 是 十 分 
必要 的 。 

(1) 染色 体 (chromosome) 又 称 为 个 体 (individual)。 生 物 的 染色 体 是 由 基因 (gene) 构 
成 的 位 串 ,包含 了 生物 的 遗传 信息 。 遗 传 算法 中 的 染色 体 对 应 的 是 数据 或 数组 ,通常 是 由 一 
维 的 串 结 构 数 据 来 表示 的 。 串 上 每 个 位 置 上 的 数 对 应 一 个 基因 ,而 各 位 置 上 所 取 的 值 对 应 
于 基因 值 。 

(2) 编码 (encoding) 与 解码 (decoding)。 将 问题 的 解 转换 成 基因 序列 的 过 程 称 为 编码 ， 
编码 是 由 题 空间 到 遗传 算法 空间 的 映射 。 反 之 ,将 基因 转换 成 问题 的 解 的 过 程 称 为 解码 。 
在 遗传 算法 中 ,首先 需要 将 问题 的 解 编码 成 基因 序列 ,在 需要 确定 个 体 优 劣 时 ,再 将 其 解码 
到 解 空间 进行 评估 。 遗 传 算法 的 一 个 特点 是 它 只 在 遗传 基因 空间 对 个 体 执行 各 种 遗传 操 
作 ,而 在 解 空间 对 解 进行 评估 和 选择 。 

对 于 不 同 的 问题 ,个 体 的 编码 方案 可 能 有 很 大 的 差异 ,因此 个 体 的 表现 形式 也 各 不 相 
同 ,个 体 的 编码 方案 还 可 能 直接 影响 到 遗传 算法 的 求解 效果 。 因 此 ,个 体 编 码 方案 的 设计 、 
选择 是 遗传 算法 设计 中 的 重要 一 环 ,也 是 遗传 算法 的 一 个 重要 的 创新 点 。 
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(3) 种 群 (population)。 由 一 定数 量 的 个 体 组 成 的 群体 ,也 就 是 问题 的 一 些 解 的 集合 。 
种 群 中 个 体 的 数量 称 为 种 群 规模 。 

(4) 适应 度 (fitness)。 评 价 群 体 中 个 体 对 环境 适应 能 力 的 指标 ,就 是 解 的 好 坏 , 由 评价 
函数 F 计算 得 到 。 在 遗传 算法 中 ,F 是 求解 问题 的 目标 函数 ,也 就 是 适应 度 函 数 。 

(5) 代 (generation) 。 在 生物 的 繁衍 过 程 中 ,个 体 从 出 生 到 死亡 即 为 一 代 , 在 遗传 算法 
中 , 代 的 意思 为 遗传 算法 的 迭代 次 数 。 可 以 指定 遗传 算法 运行 时 的 最 大 迭代 次 数 , 即 代 数 可 
作为 遗传 算法 的 一 个 结束 标志 。 

(6) 遗传 算 子 (genetic operator) 。 产 生 新 个 体 的 操作 ,常用 的 遗传 算 子 有 选择 .交叉 和 
变异 等 。 

@ 选择 (selection) : 以 一 定 概率 从 种 群 中 选择 若干 个 体 的 操作 。 一 般 而 言 ,该 操作 是 
基于 适应 度 进行 的 ,适应 度 越 高 的 个 体 , 产 生 后 代 的 概率 就 越 高 。 

@ 交叉 (crossover): 把 两 个 串 的 部 分 基因 进行 交换 ,产生 两 个 新 串 作 为 下 一 代 的 个 
体 。 交 叉 概 率 (P.) 决 定 两 个 个 体 交 叉 操 作 的 可 能 性 。 

@ 变异 (mutation) : 随机 地 改变 染色 体 的 部 分 基因 ,例如 把 0 变 1, 或 把 1 变 0, 产 生 新 
的 染色 体 。 


7.5.2 遗传 算法 的 执行 过 程 


遗传 算法 的 基本 思想 : 遗传 算法 首先 将 问题 的 每 个 可 能 的 解 按 某 种 形式 编码 成 个 体 ， 
然后 随机 选取 N 个 个 体 构成 初始 种 群 ,再 根据 预定 的 适应 度 函 数 计算 每 个 个 体 的 适应 值 。 
选择 适应 值 高 的 染色 体 作 为 父 代 ,在 通过 交叉 .变异 ,来 产生 一 群 新 的 更 适应 环境 的 个 体 , 形 
成 新 的 种 群 。 这 样 一 代 一 代 不 断 繁殖 、 进 化 ,最 后 收敛 到 一 个 个 体 上 ,该 个 体 很 有 可 能 代表 
着 问题 的 最 优 或 次 优 解 。 

根据 上 面 遗传 算法 的 基本 思想 ,其 处 理 过 程 可 描述 如 下 : 

输入 参数 : 种 群 规模 N 、 交 又 概 率 P. .变异 概率 P。。 

(1) 编码 : 遗传 算法 在 进行 搜索 之 前 先 将 解 空间 的 解数 据 表示 成 遗传 空间 的 基因 型 串 
结构 数据 , 即 从 表现 型 映射 到 基因 型 。 

(2) 初始 化 。 随 机 选择 N 个 初始 点 构成 初始 种 群 P(0) ,设置 进化 代数 计数 器 :一 0, 设 
置 最 大 进化 代数 Tmax。 

(3) 适应 度 评价 。 根 据 确定 的 适应 度 函 数 ,计算 群体 P(z) 中 每 个 个 体 的 适应 度 值 。 

(4) 选择 操作 。 根 据 (3) 中 计算 的 适应 度 值 ,用 设计 好 的 选择 算 子 对 种 群 进行 选择 
操作 。 

(5) 交叉 操作 。 将 设计 好 的 交叉 算 子 作用 于 选 出 的 群体 。 

(6) 变异 操作 。 将 设计 好 的 变异 算 子 作用 于 交叉 操作 后 的 群体 ;种 群 经 过 选择 .交叉 、 
变异 操作 之 后 得 到 下 一 代 种 群 P(t 十 1)。 

(7) 终止 条 件 判 断 。 若 三 T, 则 tt 十 1, 并 转向 (3); 若 tT, 则 以 进化 过 程 中 所 得 到 
的 具有 最 大 适应 度 的 个 体 作为 最 优 解 输出 ,终止 运算 。 

遗传 算法 具体 的 流程 图 如 图 7. 10 所 示 。 

遗传 算法 的 伪 代 码 描述 如 下 : 
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实际 问题 
1 
编码 成 位 串 
1 
种 群 p(7) 
计算 适应 度 值 
和 是 否 满足 终止 条 件 3 PH 
1 
| | 选择 操作 | | . 
| T 1 遗 
上 1 传 
| 交叉 操作 | | 算 
| 1 | 于 
1 变量 操作 | | 
La lL a J 
[产生 新 一 代 种 如 p(+D 
图 7.10 遗传 算法 的 流程 图 
//Procedure SA 
{ Initialize P(0); /* 初始 化 群体 * / 
七 0; /# 七 为 进化 代数 计数 器 * / 
While (t< Trax) do /* Tmax 是 最 大 壕 代 次 数 * / 
For i=1 to Mdo /* M 为 群体 规模 x / 
Evaluate fitness of P(t); /* 计算 第 t 代 群体 中 个 体 适 应 度 值 * / 
End for 
For i=1 to M do 
Select operation to P(t); /* 进行 选择 操作 * / 
End for 
For i=1 to (MW2) do 
Crossover operation to P(t); /x* 进行 交叉 操作 * / 
End for 
For i=1 toMdo 
Mutaticn operation to P(t); /* 进行 变异 操作 * / 
End for 
For i=1 toM do 
P(t+ 1)=P(t); /x* 生 成 新 的 群体 x / 
End for 
tttl; 
end while 
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7.5.3 遗传 算法 应 用 举例 


下 面 以 遗传 算法 解决 一 个 简单 的 函数 优化 问题 为 例 , 说 明 遗 传 算法 的 具体 应 用 。 函 数 

优化 问题 通常 指 求 函 数 的 最 大 值 或 最 小 值 。 待 优化 的 目标 函数 如 下 
(EY = L0531] 

求 该 函数 的 最 小 值 , 即 需要 先 求 得 在 [0,31] 区 间 内 的 哪个 z 值 可 以 使 y 值 最 小 。 

(1) 首先 确定 编码 方式 。 

编码 方式 跟 解 空间 形式 和 大 小 、 要 求 的 精度 都 有 关系 ,通常 采用 二 进 制 编码 。 本 例如 果 
只 要 求 精度 是 整数 即 可 , 则 问题 的 解 来 自 0 一 31 之 间 的 某 个 整数 。 

编码 就 是 要 将 每 个 可 能 的 解 转 换 成 二 进 制 数 ,以 便 进行 遗传 操作 。 每 个 二 进 制 位 是 
0 或 1, 就 是 基因 。 对 应 于 解 空间 32 种 情况 ,需要 5 位 二 进 制 表示 所 有 可 能 解 的 集合 。 基 因 
序列 一 00000 二 对 应 于 端点 0; 序 列 二 11111 放 对 应 于 另 一 个 端点 31。 例 如 整数 4 被 编码 为 
00100, 这 个 过 程 就 是 编码 过 程 。 

如 果 要 求 每 个 解 精确 到 小 数 点 后 3 位 , 则 应 该 将 闭 区 间 [0,31] 划 分 为 32X10? 等 份 。 
则 所 需 的 基因 序列 长 度 就 至 少 是 15 位 ,因为 25 一 32768 二 32X103 。 

(2) 设 定 种 群 规模 为 4, 即 每 代 种 群 中 包含 4 个 个 体 。 

(3) 适应 度 函 数 可 以 直接 选用 目标 函数 f(z) 衡量 个 体 。 

(4) 选择 操作 采用 适应 度 比例 选择 法 ,按照 个 体 适 应 度 在 适应 度 总 和 中 占有 的 概率 决 
定 该 个 体 被 选择 进入 下 一 代 的 概率 ,公式 如 下 


pz) = 二 CD 


>) fz) 

(5) 采用 单 点 交叉 方法 ,交叉 概率 设置 为 1. 0。 即 所 有 个 体 都 作为 交叉 操作 的 父 体 ,两 
两 进行 交叉 。 

(6) 变异 率 设 置 为 0.1, 终 止 条 件 设 定 为 进化 50 代 后 停止 。 

(7) 设 定好 上 述 方法 和 参数 后 ,随机 产生 初始 种 群 ,如 表 7-13 所 示 。 


表 7-13 初始 种 群 
个 体 zx; 个 体 基 因 序 列 对 应 的 解 z; 个 体 六 个 体 基 因 序 列 对 应 的 解 zx 
Zl 01110 14 x3 10001 17 
2 11000 24 4 00111 


(8) 计算 初始 种 群 中 个 体 适 应 度 , 并 根据 选择 算法 决定 每 个 个 体 出 现在 下 一 代 中 的 个 数 。 
被 选择 的 个 体 将 出 现在 下 一 步 交 叉 运算 的 候选 里 ,组 成 了 交配 池 。 适 应 度 计算 如 表 7-14 所 示 。 


表 7-14 适应 度 计算 


对 应 的 解 zx; 适应 度 fit(zxi) Bf 选择 个 数 
14 196 0.18 1 
24 576 0.52 2 
17 289 0. 26 1 
多 49 0.04 0 
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(9) 根据 交叉 概率 1. 0 和 单 点 交叉 原则 ,对 于 每 两 个 个 体 进 父 代 子 代 
行 交叉 操作 ,即将 交叉 点 后 的 个 体 基 因 片 断 互 换 。 例 如 ,个 体 | olo 01000 
<01110> 与 个 体 <11000> 在 第 2 个 基因 处 单 点 交叉 会 产生 新 | 1000 也 0 


的 个 体 二 01000 二 和 二 11110 二 ,如 图 7. 11 所 示 。 单 点 交叉 后 的 图 7.11 单 点 交叉 
结果 如 表 7-15 所 示 。 


表 7-15 交叉 运算 
交配 池 | 交叉 点 | 下 一 子 代 Xx f(z) | 交配 池 | 交叉 点 | 下 一 子 代 流 fz) 
01110 2 01000 8 64 11000 4 11001 25 625 
11000 2 11110 30 900 10001 4 10000 16 256 


(10) 根据 变异 概率 0. 1 和 基因 总 数 4X5 二 20 可 知 ,被 变异 基因 个 数 为 20X0.1=2。 
如 发 生变 异 01000~01001,10000~10010, 则 第 一 代 种 群 如 表 7-16 所 示 。 


表 7-16 第 一 代 种 群 


个 体式 个 体 基因 序列 对 应 的 解 x， | 个 体 zz 个 体 基因 序列 对 应 的 解 zx 
Zl 01001 9 Zs 11001 25 
Zs 11110 30 Zt 10010 18 


(11) 产生 了 第 一 代 种 群 后 ,由 于 进化 终止 条 件 没 有 满足 ,所 以 继续 重复 上 述 步 又 ,进行 
适应 度 计算 、 选 择 、 交 又 和 变异 操作 ,产生 下 一 代 。 直 到 第 50 代 , 算 法 结束 , 选 出 其 中 的 最 优 
个 体 作为 最 终 解 。 


7.5.4 遗传 算法 的 基本 要 素 


遗传 算法 包含 了 如 下 5 个 基本 要 素 : 问题 编码 .初始 群体 的 设 定 、 适 应 度 函 数 的 设计 、 
遗传 操作 设计 和 控制 参数 的 设 定 。 这 5 个 要 素 构成 了 遗传 算法 的 核心 内 容 。 


1. 问题 编码 


编码 机 制 是 遗传 算法 的 基础 。 通 常 遗 传 算法 不 直接 处 理 问题 空间 的 数据 ,而 是 将 各 种 
实际 问题 变换 为 与 问题 无 关 的 串 个 体 。 不 同 串 长 和 不 同 的 编码 方式 ,对 问题 求解 的 精度 和 
遗传 算法 的 求解 效率 有 着 很 大 的 影响 ,因此 针对 一 个 具体 应 用 问题 ,应 考虑 多 方面 因素 ,以 
寻求 一 种 描述 方便 .运行 效率 高 的 编码 方案 。 迄 今 为 止 ,遗传 算法 常 采用 的 编码 方法 主要 有 
两 类 : 二 进 制 编码 和 浮 点 数 编码 。 

1) 二 进 制 编码 

二 进 制 编码 是 遗传 算法 中 最 常用 的 一 种 编码 方法 ,该 方法 使 用 的 编码 符号 集 是 由 二 进 
制 符号 0 和 1 所 组 成 的 二 值 符号 集 {0.1) , 它 所 构成 的 个 体 是 一 个 二 进 制 编码 符号 串 。 二 进 
制 编码 符号 串 的 长 度 与 问题 所 要 求 的 求解 精度 有 关 。 该 编码 方法 具有 操作 简单 ,易于 实现 
等 特点 。 

2) 浮 点 数 编码 

浮 点 数 编码 方法 又 叫 真 值 编码 方法 , 它 是 指 个 体 的 每 个 基因 值 用 某 一 范围 内 的 一 个 浮 
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点 数 来 表示 ,个 体 的 编码 长 度 等 于 其 决策 变量 的 个 数 。 该 编码 方法 具有 适用 于 大 空间 搜索 、 
精度 要 求 高 收敛 速度 快 的 特点 。 


2. 初始 群体 的 生成 


遗传 算法 处 理 流程 中 ,编码 设计 之 后 的 任务 是 初始 群体 的 设 定 , 并 以 此 为 起 点 进行 一 代 
一 代 的 进化 ,直到 被 某 种 进化 终止 准则 终止 。 最 常用 的 初始 方法 是 无 指导 的 随机 初始 化 。 


3. 适应 度 函 数 (fitness function) 的 确定 


在 遗传 算法 中 , 按 与 个 体 适 应 度 成 正比 的 概率 来 决定 当前 群体 中 的 每 个 个 体 遗 传 到 下 
一 代 群 体 中 的 机 会 多 少 ,一 般 希 望 适应 值 越 大 越 好 , 且 要 求 适 应 值 非 负 。 因 此 适应 值 函 数 的 
选取 至 关 重 要 , 它 直 接 影 响 到 算法 的 收敛 速度 及 最 终 能 否 找到 最 优 解 。 

适应 度 函 数 是 根据 目标 函数 确定 的 ,针对 不 同 种 类 的 问题 ,目标 函数 有 正 有 负 , 因 此 必 
须 确定 由 目标 函数 值 到 适应 度 函 数 之 间 的 映射 规则 ,以 适应 上 述 的 要 求 。 适 应 度 函 数 的 设 
计 应 满足 以 下 条 件 : 

(1) 单 值 、 连 续 、 非 负 、 最 大 化 。 

(2) 计算 量 小 。 适 应 度 函 数 设 计 尽 可 能 简单 ,以 减少 计算 的 复杂 性 。 

(3) 通用 性 强 。 适 应 度 对 某 类 问题 ,应 尽 可 能 通用 。 


4. 遗传 操作 


标准 的 遗传 算 子 一 般 都 包括 选择 ,交叉 和 变异 三 种 。 它 们 构成 了 遗传 算法 的 核心 ,使 得 
算法 具有 强大 的 搜索 能 力 。 

1) 选择 算 子 

在 适应 度 计 算 之 后 是 实际 的 选择 ,选择 的 目的 是 为 了 从 当前 群体 中 选 出 优良 的 个 体 , 使 
它们 作为 父 代 进行 下 一 代 繁殖 。 采 用 基于 适应 度 的 选择 原则 ,适应 度 越 强 被 选中 概率 越 大 ， 
体现 优胜 劣 汰 进化 机 制 。 这 里 介绍 几 种 常用 的 选择 方法 。 

(1) 适应 度 比 例 选 择 。 适 应 度 比 例 选择 中 ,适应 度 高 的 个 体 被 大 量 复制 ,反之 淘汰 。 在 
该 方法 中 ,个 体 的 选择 概率 和 其 适应 度 成 正比 。 设 种 群 大 小 为 nn, 其 中 个 体 i 的 适应 度 为 
fit(zxi) , 则 i 被 选择 的 概率 是 

fit(x;) 


2 fitCzi) 
i=1 


(2) 轮 盘 式 选择 。 轮 盘 式 选择 根据 适应 度 大 小 分 配 轮 盘面 积 ,面积 表示 挑选 到 交配 池 
中 的 概率 。 如 表 7-17 所 示 , 表 示 了 4 个 个 体 适 应 度 、 选 择 概率 和 累积 概率 。 为 了 选择 交配 
第 二 轮 第 一 轮 个 体 ,需要 进行 多 轮 选择 。 每 一 轮 产生 一 个 [0.1] 
| | 人 | | 均匀 分 布 的 随机 数 ,将 该 随机 数 作为 选择 指针 来 
| | | 确定 被 选 个 体 。 如 图 7. 12 所 示 , 第 1 轮 随机 数 为 
0 0.18 0.70 0.96 1.00 ”0.79, 则 个 体 17 被 选中 ;第 2 轮 随机 数 为 0. 60, 则 
图 7.12 轮 盘 式 选择 过 程 个 体 24 被 选中 。 
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p(xi) 一 


表 7-17 适应 度 计算 


个 体 适应 度 选择 概率 | 累计 概率 个 体 适应 度 选择 概率 累计 概率 


14 196 0.18 0.18 17 289 0.26 0.96 
24 576 0.52 0.70 7 49 0.04 1 


(3) 竞争 式 选择 。 竞 争 式 选择 在 每 一 代 的 进化 过 程 中 首先 随机 地 选取 两 个 以 上 的 个 
体 , 具 有 最 大 适应 度 者 送 入 交配 池 。 重 复 地 选取 ,一 直到 交配 池 中 的 个 体 个 数 与 种 群 规模 相 
同 为 止 。 同 样 的 ,适应 度 函 数值 越 高 的 个 体 越 容易 被 选中 。 

选择 算 子 确定 的 好 坏 , 直 接 影响 遗传 算法 的 计算 结果 。 如 果 选 择 算 子 确定 不 当 , 会 导致 
进化 停滞 不 前 或 出 现 早熟 问题 。 选 择 策 略 与 编码 方式 无 关 。 

2) 交叉 算 子 

交叉 算 子 是 遗传 算法 中 最 主要 的 遗传 操作 ,也 是 遗传 算法 区 别 于 其 他 进化 运算 的 重要 
特征 ,通过 交叉 操作 可 以 产生 新 个 体 。 该 操作 模拟 了 自然 界 生 物体 的 突变 ,体现 了 信息 交换 
思想 ,决定 着 遗传 算法 的 收敛 性 和 全 局 搜索 能 力 。 

交叉 算 子 的 设计 与 实现 与 所 研究 的 问题 密切 相关 ,一 般 要 求 它 既 不 要 破坏 原 个 体 的 优 
良性 ,又 能 够 产生 出 一 些 较 好 的 新 个 体 ,而 且 , 还 要 和 编码 设计 一 同 考虑 。 目 前 适合 于 二 进 
制 编 码 的 个 体 和 浮 点 数 编码 的 个 体 的 交叉 算法 主要 有 : 

(1) 单 点 交叉 

单 点 交叉 又 称 简单 交叉 ,是 指 在 个 体 编码 串 中 随机 设置 一 个 交叉 点 ,实行 交叉 时 ,在 该 
点 相互 交换 两 个 配对 个 体 的 部 分 染色 体 , 如 图 7.11 所 示 。 

(2) 两 点 交叉 与 多 点 交叉 

两 点 交叉 是 指 在 个 体 编 码 串 中 随机 设置 了 两 个 交叉 点 ,交换 两 个 个 体 在 所 设 定 两 个 交 
叉 点 之 间 的 部 分 染色 体 。 例 如 : 

A: 10|110|11 .A’: 10|010|11 
B: 00|010|00  B’: 00|110|00 

多 点 交叉 是 两 点 交叉 的 推广 。 

(3) 均匀 交叉 

均匀 交叉 也 称 一 致 交叉 ,是 指 两 个 交叉 个 体 的 每 个 基因 都 以 相同 的 交叉 概率 进行 交换 ， 
从 而 形成 两 个 新 的 个 体 。 

(4) 算术 交叉 

算术 交叉 是 指 由 两 个 个 体 的 线性 组 合 而 产生 的 两 个 新 的 个 体 。 该 方法 的 操作 对 象 一 般 
是 由 浮 点 数 编码 产生 的 个 体 。 

3) 变异 算 子 

选择 和 交叉 算 子 基本 上 完成 了 遗传 算法 的 大 部 分 搜索 功能 ,变异 操作 只 是 对 产生 的 新 
个 体 起 辅助 作用 ,但 是 它 必 不 可 少 ,因为 变异 操作 决定 了 遗传 算法 的 局 部 搜索 能 力 。 变 异 算 
子 与 交叉 算 子 相互 配合 ,共同 完成 对 搜索 空间 的 全 局 搜索 和 局 部 搜索 ,从 而 使 得 遗传 算法 能 
够 以 良好 的 搜索 性 能 找到 最 优 解 。 

目前 适合 于 二 进 制 编码 的 个 体 和 浮 点 数 编码 的 个 体 的 变异 算法 主要 有 : 
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(1) 基本 位 变异 
基本 位 变异 是 指 对 群体 中 的 个 体 编码 串 根 据 变异 概率 ,随机 挑选 一 个 或 多 个 基因 位 并 
对 这 些 基 因 位 的 基因 值 进行 变动 。 例 如 : 


指定 第 三 位 为 变异 他 
个 体 A: DE : 1001011 


(2) 均匀 变异 

均匀 变异 是 指 分 别 用 符合 某 一 范围 内 均匀 分 布 的 随机 数 ,以 某 一 较 小 的 概率 来 蔡 换个 
体 编码 串 中 基因 座 上 原 有 的 基因 值 。 

(3) 边界 变异 

边界 变异 是 均匀 变异 的 一 个 变形 。 在 进行 边界 变异 时 ,随机 选取 基因 座 的 两 个 对 应 边 
界 基因 值 之 一 去 替换 原 有 的 基因 值 。 

(4) 高 斯 近似 变异 

高 斯 变异 是 指 进行 变异 操作 时 用 符合 均值 为 P, 方 差 为 P: 的 正 态 分 布 的 一 个 随机 数 来 
替换 原 有 的 基因 值 。 


5. 控制 参数 


控制 参数 主要 有 群体 规模 、. 迁 代 次 数 、 交 叉 概 率 、. 变 异 概率 等 ,对 此 基本 的 遗传 算法 都 需 
要 提前 设 定 。 

(1) N: 群体 大 小 , 即 群 体 中 所 含 个 体 的 数量 ,如 果 群 体 规 模 大 ,可 提供 大 量 模式 ,使 遗 
传 算法 进行 启发 式 搜索 ,防止 早熟 发 生 , 但 会 降低 效率 ;如 果 群 体 规模 小 ,可 提高 速度 ,但 却 
会 降低 效率 。 取 值 范围 一 般 为 20 一 100。 

(2) TT: 遗传 运算 的 终止 进化 代数 , 取 值 范围 一 般 为 100 一 500。 

(3) P.: 交叉 概率 , 它 影 响 着 交叉 算 子 的 使 用 频率 ,交叉 率 越 高 ,可 以 越 快 地 收敛 到 全 
局 最 优 解 ,因此 一 般 选 择 较 大 的 交叉 率 。 但 如 果 交 叉 率 太 高 ,也 可 能 导致 过 早 收敛 ,而 交叉 
率 太 低 , 可 能 导致 搜索 停滞 不 前 , 取 值 范围 一 般 为 0.4 一 0. 99 。 

(4) P。: 变异 概率 ,变异 率 控制 着 变异 算 子 的 使 用 频率 , 它 的 大 小 将 影响 群体 的 多 样 性 
及 成 熟 前 的 收敛 性 能 。 变 异 率 的 选取 一 般 受 种 群 大 小 、 染 色 体 长 度 等 因素 影响 ,通常 选取 很 
小 的 值 。 但 变异 率 太 低 可 能 使 某 基因 值 过 早 丢 失信 息 无 法 恢复 ;变异 率 太 高 ,遗传 算法 可 
能 会 变 成 了 随机 搜索 。 取 值 范围 一 般 为 0.0001 一 0. 1 。 

这 4 个 运行 参数 对 遗传 算法 的 求解 结果 和 求解 效率 都 有 一 定 的 影响 ,但 目前 尚 无 合理 
选择 它们 的 理论 依据 。 在 实际 应 用 中 ,常常 需要 经 过 多 次 实验 后 才 确定 参数 或 其 范围 。 


7.5.5 遗传 算法 的 特点 及 应 用 领域 


遗传 算法 是 一 类 可 用 于 复杂 系统 优化 的 具有 和 鲁 棒 性 的 搜索 算法 ,与 传统 的 优化 算法 相 
比 ,采用 了 许多 独特 的 方法 和 技术 。 归 纳 起 来 ,遗传 算法 主要 有 以 下 特点 : 
(1) 遗传 算法 的 处 理 对 象 是 那些 对 参数 集 进行 编码 得 到 的 个 体 ,而 不 是 参数 本 身 。 
(2) 具有 并 行 性 。 遗 传 算法 采用 的 是 同时 处 理 群 体 中 多 个 个 体 的 方法 ,及 同时 对 搜索 
空间 中 的 多 个 解 进行 评估 。 这 一 特点 使 遗传 算法 具有 较 好 的 全 局 搜索 性 能 ,从 而 减少 了 陷 
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入 局 部 最 优 解 的 可 能 。 

(3) 仅 用 适应 度 函 数 来 指导 搜索 。 以 往 很 多 的 搜索 方法 都 需要 辅助 信息 才能 正常 工 
作 , 如 梯度 法 需要 有 关 导 数 的 信息 才能 息 上 当前 的 峰值 点 ,这 就 要 求 目标 函数 可 导 。 而 遗传 
算法 则 不 需要 类 似 的 辅助 信息 ,为 了 有 效 地 搜索 越 来 越 好 的 编码 结构 , 它 仅 需要 与 该 编码 串 
有 关 的 适应 度 函数 即 可 。 

(4) 内 在 启发 式 随机 搜索 特性 。 遗 传 算法 不 是 采用 确定 性 规则 ,而 是 采用 概率 的 变迁 
规则 来 指导 它 的 搜索 方向 。 概 率 仅 作为 一 种 工具 来 引导 其 搜索 过 程 朝 着 搜索 空间 的 最 优化 
的 解 区 域 移动 。 

(5) 遗传 算法 易于 介入 已 有 模型 ,具有 可 扩展 性 ,易于 同 别 的 技术 混合 。 

遗传 算法 提供 了 一 种 求解 复杂 系统 优化 问题 的 通用 框架 , 它 不 依赖 于 问题 具体 的 领域 ， 
对 问题 的 种 类 有 很 强 的 鲁 棒 性 ,所 以 广泛 应 用 于 许多 学 科 。 下 面 列 出 遗传 算法 一 些 主要 的 
应 用 领域 。 

(1) 函数 优化 。 函 数 优化 是 遗传 算法 的 经 典 应 用 领域 ,也 是 对 遗传 算法 进行 性 能 评价 
的 常用 算 例 。 可 以 用 各 种 各 样 的 函数 来 验证 遗传 算法 的 性 能 。 对 一 些 非 线性 、 多 模型 .多 目 
标的 函数 优化 问题 ,使 用 遗传 算法 可 得 到 较 好 的 结果 。 

(2) 组 合 优化 。 随 着 问题 规模 的 增 大 ,组 合 优化 问题 的 搜索 空间 也 急剧 扩大 ,有 时 在 目 
前 的 计算 机 上 用 枚 举 法 很 难 或 甚至 不 可 能 求 出 其 精确 最 优 解 。 对 这 类 问题 ,人 们 已 意识 到 
应 把 主要 精力 放 到 寻求 其 满意 解 上 ,而 遗传 算法 就 是 寻求 这 种 满意 解 的 最 佳 工具 之 一 。 时 
间 证 明 ,遗传 算法 对 于 组 合 优化 中 的 NP 完全 问题 非常 有 效 。 

(3) 生产 调度 问题 。 采 用 遗传 算法 能 够 解决 复杂 的 生产 调度 问题 。 在 单 件 生产 车 间 调 
度 、 流 水 线 生产 车 间 调 度 、 生 产 规划 ,任务 分 配 等 方面 遗传 算法 都 得 到 了 有 效 的 应 用 。 

(4) 自动 控制 。 在 自动 控制 领域 中 有 很 多 与 优化 相关 的 问题 需要 求解 ,遗传 算法 已 在 
其 中 得 到 了 初步 应 用 ,并 显示 出 了 良好 效果 。 例 如 ,基于 遗传 算法 的 模糊 控制 器 优化 设计 ， 
用 遗传 算法 进行 航空 控制 系统 的 优化 等 。 

(5) 机 器 学 习 。 基 于 遗传 算法 的 机 器 学 习 , 特 别 是 分 类 器 系统 ,在 很 多 领域 中 都 得 到 了 
应 用 。 例 如 ,遗传 算法 被 用 于 学 习 模 糊 控 制 规则 ,利用 遗传 算法 来 学 习 素 属 函数 等 。 基 于 遗 
传 算法 的 机 器 学 习 可 用 于 调整 人 工 神经 网 络 的 连接 权 , 也 可 用 于 神经 网 络 结构 的 优化 设计 。 
分 类 器 系统 在 多 机 器 人 路 径 规划 系统 中 取得 了 成 功 的 应 用 。 

(6) 图 像 处 理 。 图 像 处 理 和 模式 识别 是 计算 机 视觉 中 的 一 个 重要 领域 。 在 图 像 处 理 
中 ,如 扫描 、 特 征 提取 、 图 像 分 割 等 不 可 避免 地 会 存在 一 些 误差 ,这 些 误差 会 影响 图 像 处 理 的 
效果 。 如 何 使 这 些 误差 最 小 是 使 计算 机 视觉 达到 实用 化 的 重要 要 求 ,遗传 算法 在 这 些 图 像 
处 理 的 优化 计算 方面 找到 了 用 武之 地 。 

(7) 机 器 人 学 。 机 器 人 是 一 类 复杂 的 难以 精确 建 模 的 人 工 系统 ,而 遗传 算法 的 起 源 来 
自 于 对 人 工 自 适应 系统 的 研究 ,所 以 机 器 人 学 理所当然 地 成 为 遗传 算法 的 一 个 重要 领域 。 
例如 ,遗传 算法 已 经 在 移动 机 器 人 路 径 规 划 、 机 关节 机 器 人 运动 轨迹 规划 、 机 器 人 道 运动 学 
求解 、 细 胞 机 器 人 的 结构 优化 和 行为 协调 等 方面 得 到 研究 和 应 用 。 
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7.6 粗糙 集 


粗糙 集 理论 是 波兰 数学 家 Pawlak 于 1982 年 提出 的 一 种 数据 分 析 理论 。 粗 糙 集 理论 作 
为 处 理 复 杂 系统 的 一 个 有 效 方法 ,其 主要 思想 就 是 在 保持 信息 系统 分 类 能 力 不 变 的 前 提 下 ， 
通过 知识 约 简 导 出 问题 的 决策 或 分 类 规则 。 应 用 该 理论 处 理 不 确定 性 问题 的 最 大 优势 是 不 
需 提 供 问题 所 需 处 理 的 数据 集合 之 外 的 任何 先 验 信息 。 


7.6.1 粗糙 集 理论 的 相关 概念 


粗糙 集 理论 假定 知识 是 一 种 对 对 象 进行 分 类 的 能 力 ,这 里 的 “对 象 "是 指 我 们 所 能 言及 
的 任何 事物 ,比如 实物 .状态 .抽象 概念 .过 程 和 时 刻 等 。 也 就 是 说 ,知识 必须 与 具体 或 抽象 
世界 的 特定 部 分 相关 的 各 种 分 类 模式 联系 在 一 起 .这 种 特定 部 分 称 之 为 论 域 (universe)。 
对 于 论 域 及 知识 的 特性 并 没有 任何 特别 假设 ,事实 上 ,知识 构成 了 某 一 感 兴 趣 领 域 中 各 种 分 
类 模式 的 一 个 族 集 (family) ,这 个 族 集 提供 了 关于 现实 的 显 事实 ,以 及 能 够 从 这 些 显 事实 中 
推导 出 隐 事 实 的 推理 能 力 。 

在 粗糙 集 理论 中 ,知识 是 用 信息 系统 来 表示 的 。 信 息 系统 可 以 被 看 成 是 一 数据 表 , 表 中 
的 行 对 应 要 研究 的 对 象 , 列 对 应 对 象 的 属性 ,对 象 的 信息 是 通过 指定 对 象 的 各 属性 值 来 表示 
a 如 果 将 信息 系统 中 的 属性 进一步 分 成 条 件 属 性 和 决策 属性 , 则 该 信息 系统 称 为 决策 表 。 

面 给 出 信息 系统 的 形式 化 定义 。 

定义 7.11 一 个 信息 系统 S 可 以 表示 为 

S=(U,A,V,f) 

式 中 ,U 是 对 象 的 集合 , 即 论 域 ;A 是 属性 集合 ; 


VvV= 旭 入 
a€EA 
式 中 V。 表示 属性 a 的 值 域 ;f: UXA>V 是 一 个 信息 函数 , 它 指定 U 中 每 一 个 对 象 x 的 属 
性 值 , 即 对 xEU,a€EA, 有 f(x,a)€V,。 

如 果 属 性 集 A 可 以 分 为 条 件 属性 C 和 决策 属性 DD, 即 CUD=A,CND=2, 则 该 信息 
系统 称 为 决策 系统 或 决策 表 , 其 中 D 一 般 只 含有 一 个 属性 ,对 于 具有 多 个 属性 通常 转化 成 
一 个 属性 。 

定义 7.12 在 信息 系统 S 中 ,对 于 每 个 属性 子 集 BSA, 可 以 定义 一 个 不 可 区 分 关系 
IND(CB) : 

IND(B) = {(zx,y) EUXU| Vb EB,f(r,0) = f(y,0)} 
显然 IND(B) 是 一 个 等 价 关 系 , 对 象 z 在 属性 B 上 等 价 类 [xjmos 定义 为 : 
[zjnom = {y | y € U,yIND(B)z} 

为 简便 起 见 ,在 不 产生 混淆 的 情况 下 用 B 代替 IND(B)。 

不 可 区 分 关系 是 标准 粗糙 集 理论 中 最 基本 的 概念 。 若 二 x,y 记 EIND(P), 则 称 对 象 
工 和 y 是 P 不 可 区 分 的 , 即 x、y 存在 于 不 可 区 分 关系 INDCP) 的 同一 等 价 类 中 。 依 据 等 价 
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关系 族 书 形 成 的 分 类 知识 ,z 与 y 无 法 区 分 。U/IND(P) 中 的 各 等 价 类 称 为 P 基本 集 ( 或 原 
子 集 )。 基 本 集 是 粗糙 集 理论 中 构成 知识 的 基本 模块 。 若 集合 X 可 以 表示 成 某 些 基本 集 的 
并 时 , 则 称 X 是 已 可 定义 集 , 和 否则 称 为 已 不 可 定义 集 。 

粗糙 集 理论 将 分 类 方法 看 成 知识 ,分 类 方法 的 族 集 是 知识 库 。 等 价 关系 对 应 论 域 U 的 
一 个 划分 , 即 关 于 论 域 中 对 象 的 一 个 分 类 。 因 此 ,通过 一 个 等 价 关 系 可 以 形成 与 之 对 应 的 论 
域 知识 。 从 而 得 到 不 可 区 分 关系 对 应 论 域 U 上 的 知识 。 

知识 的 粒度 性 是 造成 使 用 已 有 知识 不 能 精确 地 表示 某 些 概念 的 原因 ,在 粗糙 集 理 论 中 ， 
每 个 不 精确 概念 都 有 一 对 称 为 上 近似 与 下 近似 的 精确 概念 来 表示 。 

定义 7.13 设 集合 XSDU 为 任 一 子 集 ,R 是 U 上 的 等 价 关 系 , 则 称 

RX = {rEU|L[zj SSX} 
和 
RX= {rE€EU|[zjN XK} 

分 别 为 X 的 R 下 近似 (lower approximation) 和 X 的 R 上 近似 Cupper approximation)。 而 
BNk(X) 二 RX 一 RX 则 称 为 X 的 R 边界 区 域 (boundary)。POS (zx) 二 RX 为 X 的 R 正 域 ， 
NEGr(X) 二 U 一 RX 为 X 的 R 负 域 。 

若 BNk(X) 关 如 或 RX 了 RX ,意味 着 不 能 通过 R 的 等 价 类 精确 地 表示 , 即 X 不 能 
用 现 有 的 知识 (关系 R) 完 全 表示 , 则 X 是 粗糙 集 。RX 包含 了 所 有 使 用 知识 R 可 确切 分 
类 到 X 中 的 元 素 ,RX 包含 了 所 有 那些 可 能 是 属于 X 的 元 素 , 而 BN (X) 则 由 不 能 肯定 分 
类 到 XX 或 其 补 集中 的 所 有 元 素 组 成 。NEGr(X) 则 是 由 一 定 不 属于 XX 的 对 象 组 成 的 
集合 。 

集合 (概念 ) 的 不 精确 性 是 由 于 边界 区 域 的 存在 而 引起 的 。 集 合 的 边界 区 域 越 大 ,其 精 
确 性 越 低 。 为 了 更 精确 地 表达 这 一 点 ,下 面 引入 不 精确 性 的 度量 。 

定义 7.14 由 等 价 关 系 RR 定义 的 非 空 集合 XSU 的 近似 精度 为 
IRX| 
| RX | 
其 中 |X| 表 示 和 集合 X 的 基数 ,XX 隆 名 ;如 果 匀 = 名 ,可 定义 ar(X)==1。 

由 此 可 见 ,Rough 集 X 的 精度 是 一 个 区 间 [o,1] 上 的 实数 , 它 定义 了 Rough 集 X 的 可 
定义 程度 , 即 集合 X 的 确定 度 。 

定义 7.15 假定 集合 X 是 论 域 U 上 的 一 个 关于 知识 R 的 Rough 集 ,定义 RR 的 Rough 
度 为 : 


ar(X) = 


Pr(X) = 1—ar(X) 
X 的 Rough 度 与 精度 恰恰 相反 ,表示 的 是 集合 X 的 知识 的 不 完全 程度 。 


7.6.2 粗糙 集 的 应 用 举例 


下 面 通过 一 个 简单 例子 来 帮助 理解 粗糙 集 的 相关 概念 及 其 应 用 。 
给 定 一 个 包含 了 6 条 记录 的 信息 系统 ,如 表 7-18 所 示 。 表 中 的 列 用 于 属性 标记 ,P; 用 
于 标记 记录 。 于 是 ,每 行 包 含有 关 记 录 的 信息 ,如 ps 的 信息 {( 类 别 , 冰 箱 ), (品牌 ,海尔 )， 
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(规格 ,1),( 地 域 ,Y)}, 它 和 P;、P; 关于 类 别 是 不 分 明 的 ;P; 和 Ps 关于 类 别 、 品 牌 和 规格 都 
是 不 分 明 的 。 所 以 按 属性 的 子 集 { 类 别 } 分 类 可 得 到 两 个 基本 集 {P:,P:,P:} 和 {P,,P,， 
Pi) ;又 如 按 属性 的 子 集 { 类 别 , 品 牌 } 分 类 为 {P,P, ,Ps),{1P: ,Ps),{(P:}。 类 似 地 ,可 按 属 
性 的 任 一 子 集 分 类 都 可 得 到 相应 基本 集 , 于 是 确定 地 域 的 集合 {Pi,P; ,P: ,Ps}S(P,,P，， 
P,P ,Ps , Ps} , 按 属性 集 {类 别 ,品牌 ,规格 } (集合 本 身 也 是 其 子 集 ) 分 类 ,可 得 基本 集 {P)， 
Po},{Ps,P;),{P3),{P,)。 根 据 定义 可 得 该 信息 系统 中 关于 “确定 地 域 ” 的 下 近似 集合 为 
{Pi ,P,P}, 上 近似 集合 为 {Pi ,P,P;， Ps , Ps) ,边界 集 {P: ,Pi ) ;关于 “未 确定 地 域 ”的 下 
近似 集合 为 {P,} ,上 近似 集合 为 {P: , P,P; ) ,边界 集 {P; , Ps}。 
表 7-18 Rough 集 实例 

纪录 类 别 品牌 规格 地 域 纪录 类 别 品牌 规格 地 域 

P， 彩电 长 虹 彩电 
海尔 


7.6.3 粗糙 集 理 论 研究 的 对 象 及 特点 


粗糙 集 理论 的 研究 对 象 是 由 一 个 多 值 属性 (特征 .症状 .特性 等 ) 集 合 描述 的 一 个 对 象 
(观察 ,病历 等 ) 集 合 ,对 于 每 个 对 象 及 其 属性 都 有 一 个 值 作为 其 描述 符号 ,对 象 、 属 性 和 描述 
符 是 表达 决策 问题 的 3 个 基本 要 素 。 这 种 表达 形式 也 可 以 看 成 一 个 二 维 表格 ,表格 的 行 与 
对 象 相 对 应 , 列 对 应 于 对 象 的 属性 。 各 行 包含 了 表示 相应 对 象 信息 的 描述 符 , 还 有 关于 各 个 
对 象 的 类 别 成 员 的 信息 。 通 常 , 关 于 对 象 的 可 得 到 的 信息 不 一 定 足 以 划分 其 成 员 类 别 。 换 
名 话说 ,这 种 不 精确 性 导致 了 对 象 的 不 可 分 辨 性 。 给 定 对 象 间 的 一 个 等 价 关系 , 即 导致 由 等 
价 关 系 构成 的 近似 空间 的 不 分 明 关 系 。 粗 糙 集 理论 就 用 不 分 明 对 象 类 形成 的 上 近似 和 下 近 
似 来 描述 。 这 些 近 似 分 别 对 应 了 确定 属于 给 定 类 的 最 大 的 对 象 集合 和 可 能 属于 给 定 类 的 最 
小 的 对 象 集合 。 下 近似 和 上 近似 的 差 是 一 个 边界 集合 , 它 包 含 了 所 有 不 能 确切 判定 是 否 属 
于 给 定 类 的 对 象 。 这 种 处 理 可 以 定义 近似 的 精度 和 质量 。 粗 糙 集 方法 可 以 解决 重要 的 分 类 
问题 ,所 有 宛 余 对 象 和 属性 的 约 简 包含 属性 的 最 小 子 集 , 能 够 很 好 地 近似 分 类 ,得 到 可 以 接 
受 质量 的 分 类 。 而 且 , 它 还 可 以 用 决策 规则 集合 的 形式 表示 最 重要 属性 和 特定 分 类 之 间 的 
所 有 重要 关系 。 

粗糙 集 (RS) 理 论 是 一 种 刻画 不 完整 性 和 不 确定 性 的 数学 工具 ,能 有 效 地 分 析 和 处 理 不 
精确 .不 一 臻 ,不 完整 等 各 种 不 完备 信息 ,并 从 中 发 现 隐 含 的 知识 ,揭示 潜在 的 规律 。 粗 糙 集 
理论 有 如 下 特点 : 

(1) 粗糙 集 理论 不 需要 先 验 知识 。 模 糊 集 和 概率 统计 方法 是 处 理 不 确定 信息 的 常用 方 
法 ,但 这 些 方法 需要 一 些 数 据 的 附加 信息 或 先 验 信息 ,如 模糊 隶属 函数 和 概率 分 布 等 ,这 些 
信息 又 并 不 容易 得 到 。 但 是 ,粗糙 集 理论 分 析 方 法 仅 需 利 用 数据 本 身 提 供 的 信息 ,而 无 须 任 
何 先 验 知识 。 

(2) 粗糙 集 理论 是 一 个 强大 的 数据 分 析 工 具 。 它 能 表达 和 处 理 不 完备 信息 ;能 在 保留 
关键 信息 的 前 提 下 对 数据 进行 化 简 并 求 得 知识 的 最 小 表达 式 ; 能 识别 并 评估 数据 之 间 的 依 
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赖 关系 ,揭示 出 概念 的 简单 模式 ;能 从 经 验 数据 中 获取 易于 证 实 的 规则 知识 。 

(3) 粗糙 集 理论 与 模糊 集 分 别 刻画 了 不 完备 信息 的 两 个 方面 。 粗 糙 集 理论 以 不 可 分 辩 
关系 为 基础 ,侧重 分 类 ,模糊 集 基 于 元 素 对 集合 隶属 程度 的 不 同 , 强 调集 合 本 身 的 含混 性 。 
从 粗糙 集 理论 的 观点 看 ,粗糙 集合 不 能 清晰 定义 的 原因 是 缺乏 足够 的 论 域 知 识 , 但 可 以 用 一 
对 清晰 集合 逼近 。 虽 然 粗糙 集 理论 和 模糊 集 的 特点 各 不 相同 ,但 它们 之 间 有 着 密切 的 关系 ， 
有 很 强 的 互补 性 。 粗 烽 集 理论 和 证 据 理论 也 有 一 些 相互 交 全 之 处 ,在 实际 应 用 中 可 以 相互 
补充 。 


7.7 小 结 


数据 挖掘 是 智能 信息 处 理 的 一 种 过 程 或 技术 , 它 在 对 大 量 数据 实例 全 面 而 深刻 认识 芯 
基础 上 ,通过 计算 ,归纳 和 推理 等 环节 ,从 中 抽取 普遍 的 一 般 的 和 本 质 的 现象 或 特征 。 常 用 
的 数据 挖掘 方法 有 决策 树 、 遗 传 算法 、 贝 叶 斯 网 络 ,粗糙 集 、 神 经 网 络 等 。 

概念 描述 是 对 原始 细节 数据 的 抽象 ,一 般 要 经 过 概念 分 层 、 数 据 泛 化 、 泛 化 结果 表示 等 
步骤 ,其 中 概念 分 层 是 数据 泛 化 的 基础 ,数据 泛 化 是 数据 描述 的 基础 。 概 念 描述 包括 某 类 对 
象 的 特征 性 描述 或 者 几 个 类 之 间 的 区 别 性 描述 两 种 类 型 。 

关联 规则 反映 一 个 事物 与 其 他 事物 之 间 的 相互 依存 性 和 关联 性 。 如 果 两 个 或 者 多 个 事 
务 之 间 存 在 一 定 的 关联 关系 ,那么 ,其 中 一 个 事务 就 能 够 通过 其 他 事物 预测 到 。 典 型 的 关联 
规则 发 现 问题 是 对 超市 中 的 购物 篮 数 据 进行 分 析 , 通 过 发 现 顾客 放 和 人 购物 篮 中 的 不 同 商品 
之 间 的 关系 来 分 析 顾 客 的 购买 习惯 。 经 典 的 关联 规则 挖掘 算法 有 由 候选 集 产 生 频 繁 集 的 算 
法 Apriori 和 不 产生 候选 集 的 算法 FP-tree。 

分 类 是 最 常见 的 数据 挖掘 任务 之 一 。 分 类 问题 首先 从 训练 集中 得 到 分 类 模型 ,之 后 对 
未 知 类 标号 的 数据 样本 进行 分 类 。 本 章 的 数据 分 类 一 节 中 首先 介绍 了 数据 分 类 的 基本 步骤 
与 评价 准则 ,接着 简要 介绍 了 基于 决策 树 、 贝 叶 斯 网 络 、. 神 经 网 络 .近邻 分 类 等 常用 的 分 类 
方法 。 

聚 类 是 按照 一 定 的 要 求 和 规律 对 事物 进行 区 分 和 分 类 的 过 程 。 在 这 一 过 程 中 没有 任何 
关于 分 类 的 先 验 知识 ,也 没有 教师 的 指导 , 仅 靠 事 物 间 的 相似 性 作为 类 属 划分 的 准则 ,因此 
属于 无 监督 分 类 的 范畴 。 聚 类 的 方法 有 很 多 ,总 的 来 说 主要 分 为 以 下 几 种 类 型 : 划分 方法 、 
层次 方法 .密度 方法 、 模 型 方法 、 网 格 方法 和 模糊 聚 类 。 

遗传 算法 (Genetic Algorithm,GA) 是 模拟 自然 界 生物 进化 过 程 的 随机 化 搜索 算法 , 它 
以 很 强 的 解决 问题 能 力 和 广泛 的 适应 性 渗透 到 研究 与 工程 的 各 个 领域 ,并 得 到 了 良好 的 效 
果 。 本 章 介绍 了 遗传 算法 的 基本 术语 、 遗 传 算法 的 基本 思想 与 执行 过 程 , 并 举例 说 明了 遗传 
算法 的 具体 应 用 。 

粗糙 集 理论 作为 处 理 复杂 系统 的 一 个 有 效 方法 ,其 主要 思想 就 是 在 保持 信息 系统 分 类 
能 力 不 变 的 前 提 下 ,通过 知识 约 简 导出 问题 的 决策 或 分 类 规则 。 本 章 介 绍 了 粗糙 集 理 论 的 
相关 概念 ,并 举例 说 明 粗 糙 集 数据 挖掘 方法 的 具体 应 用 。 
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1. 填空 题 

(1) 概念 描述 有 某 类 对 象 的 或 者 几 个 类 之 间 的 两 种 类 型 。 
(2) 数值 型 数据 概念 分 层 的 方法 主要 有 % \ 基 于 坟 的 离散 化 。 
(3) 经 典 的 关联 规则 挖掘 算法 有 算法 和 算法 。 


(4) 可 信和 度 (A 王 之 B) 定 义 为 ， 
支持 度 (A 王 之 B) 定 义 为 ， 


(5) 对 属性 泛 化 过 程 进行 控制 的 方法 有 两 种 ， 和 
(6) 同时 满足 和 的 规则 称 做 强 关 联 规则 。 
(7) 遗传 算法 是 的 随机 化 搜索 算法 。 

(8) 所 有 神经 网 络 的 工作 过 程 主要 分 两 个 阶段 : 和 


(9) 给 定 一 个 个 对 象 或 元 组 的 数据 库 构 建 & 个 划分 ,每 个 划分 为 一 个 村 入 ,并 且 过 
2。 这 种 聚 类 方法 称 为 


(10) 遗传 是 一 种 生物 从 其 亲 代 继承 特性 和 形状 的 现象 ,继承 的 信息 由 携带 。 
(11) 常用 的 聚 类 准则 函数 有 gS ` 类 间距 离 和 准则 。 
2. 简 答题 


(1) 简 述 数据 分 类 的 基本 步骤 。 

(2) 简 述 人 工 神经 网 络 分 类 算法 的 优 缺 点 。 

(3) 简 述 BP 算法 具体 过 程 。 

(4) 简 述 上 近邻 分 类 方法 的 原理 。 

(5) 给 定 两 个 对 象 分 别 用 元 组 (22,1,42,10) 和 (20,0,36,8) 描 述 ,计算 这 两 个 对 象 之 间 
的 曼哈顿 距离 . 欧 几 里 德 距 离 。 

(6) mtn 

(7) 简 述 遗传 算法 的 基本 思 

oP emt Te 
集合 和 上 近似 集合 。 


表 7-19 客户 信息 表 


客户 编号 | 赞扬 竞争 对 手 的 产品 否 | 挑选 产品 时 间 很 长 距 最 后 一 次 销售 时 间 客户 流失 否 


970102 否 是 长 是 
970230 是 否 长 是 
980304 是 是 很 长 是 
980625 否 是 正常 否 
990211 是 否 长 否 
990327 否 是 很 长 是 
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(9) 对 事务 数据 库 吃 , 应 用 Apriori 算法 找 出 频 集 (最 小 支持 度 为 2) ,如 表 7-20 所 示 。 


表 7-20 ”数据库 DD 
事务 标识 项 集 事务 标识 项 集 
Al 了 3 A3 本 
A2 25355 A4 2,5 


(10) 在 某 一 数据 库 中 有 不 同 元 组 值 是 : 4、8、15、21、21、24、25、28、34, 按 照 箱 平滑 方法 
进行 数据 平滑 处 理 , 箱 的 深度 为 3, 用 箱 平均 值 平滑 。 
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数据 仓库 的 开发 应 用 像 生 物 一 样 具 有 其 特有 的 、 完 整 的 生命 周期 ,数据 仓库 的 开发 应 用 
周期 可 以 分 成 : 数据 仓库 规划 分 析 阶 段 .数据 仓库 设计 实施 阶段 以 及 数据 仓库 的 使 用 维护 
三 个 阶段 。 这 三 个 阶段 是 一 个 不 断 循环 完善 ,提高 的 过 程 。 在 一 般 情况 下 数据 仓库 系统 不 
可 能 在 一 个 循环 过 程 中 完成 ,而 是 经 过 多 次 循环 开发 ,每 次 循环 都 会 为 系统 增加 新 的 功能 ， 
使 数据 仓库 的 应 用 得 到 新 的 提高 。 

本 章 介绍 应 用 SQL Server 2005 数据 仓库 功能 完成 数据 仓库 开发 实例 。 


8.1 SQL Server 2005 所 提供 的 数据 仓库 功能 


SQL Server 2005 集成 了 三 个 服务 来 实现 数据 仓库 系统 的 开发 : SQL Server 2005 Analysis 
Services, SQL Server 2005 Integration Services, SQL Server 2005 Reporting Services, 同 
时 ,还 提供 了 一 个 数据 仓库 与 商业 智能 应 用 系统 的 开发 环境 一 一 SQL Server Business 
Intelligence Development Studio。 它 们 的 关系 如 图 8. 1 所 示 。 


SQL Server Business Intelligence Development Studio 


| 服务 | 集成 (SSIS) | | 分 析 (SSAS) | 一 一 =| 报表 (SSRS) | 
| 


作用 数据 抽取 OLAP 自 定义 报表 
Le 数据 整合 数据 挖掘 数据 展现 


从 企业 各 业务 数 建立 对 分 析 结 果 提 供 
| EY 息 ， 实 现 与 合 不 同 需求 
流程 的 统一 所 0 内 的 图 表 和 报表 


4 浊 


图 8.1 SQL Server 2005 的 数据 仓库 架构 


Microsoft SQL Server 2005 是 一 个 完整 的 商务 智能 平台 , 它 所 提供 的 基础 结构 和 服务 
器 组 件 可 用 于 构建 : 易于 查询 且 维 护 成 本 较 低 的 大 型 复杂 数据 仓库 ; 较 小 规模 的 企业 或 大 
型 企业 中 的 部 门 可 以 轻松 构建 和 管理 小 型 报告 和 分 析 系 统 ;向 操作 用 户 交 付 分 析 数 据 的 低 
延迟 系统 ;闭环 分 析 和 数据 挖掘 系统 ;以 及 扩展 商务 智能 的 嵌入 式 系统 。 其 新 增 功能 如 
Business Intelligence Development Studio 和 SQL Server Management Studio 均 进 一 步 扩 
展 了 Microsoft BI 平台 。 每 个 工具 都 具有 创新 性 ,用 比 以 前 更 少 的 硬件 ,规模 更 小 的 团队 更 
快 更 好 地 构建 部署 和 管理 重要 的 商务 智能 应 用 程序 。 

本 章 将 介绍 SQL Server 2005 Analysis Services、SQL Server 2005 Integration Services 
及 SQL Server Business Intelligence Development Studio。 SQL Server 2005 Reporting 
Services 将 在 第 9 章 重 点 介绍 。 
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8.1.1 SQL Server 2005 Integration Services 


Integration Services 是 SQL Server 2005 的 重要 开发 工具 ,是 DTS( 数 据 转换 服务 ) 的 
后 续 与 革新 。SQL Server 2005 提供 了 最 新 的 大 型 数据 库 管理 系统 。 在 多 年 来 建立 起 各 种 
数据 库 之 后 ,几乎 所 有 的 应 用 单位 都 面临 着 如 何 将 数据 库 中 的 数据 根据 企业 应 用 的 需要 提 
取出 来 .转换 成 需要 的 形式 和 和 载 和 人 相关 文件 或 者 应 用 程序 的 问题 ,这 就 是 所 谓 的 ETL。 
Integration Services 是 SQL Server 2005 提供 的 最 新 的 ETL 处 理工 具 , 它 以 Visual Studio 
为 基础 ,提供 了 大 量 现成 的 组 件 ,可 供 人 们 快速 建立 起 运行 稳定 、 性 能 出 色 的 ETL 程序 。 

SQL Server 2005 Integration Services(SSIS) 集 成 服务 具有 出 色 的 ETL 和 整合 能 力 ， 
提供 了 构建 企业 级 ETL 应 用 程序 所 需要 的 功能 和 性 能 ,使 组 织 机 构 能 更 加 容易 地 管理 来 自 
于 不 同 数 据 源 的 数据 ,SSIS 是 可 编程 .可 能 入 和 可 扩展 的 ,是 理想 的 ETL 平台。 


8.1.2 SQL Server 2005 Analysis Services 


SQL Server 2005 Analysis Services(SSAS) 分 析 服 务 提供 了 所 有 业务 数据 的 统一 视图 ， 
可 以 作为 传统 报表 在线 分 析 处 理 . 关 键 性 能 指示 器 (Key Performance Indicators,KPI) 记 
分 卡 和 数据 挖掘 的 基础 。 同 时 提供 了 一 个 元 数据 模型 以 满足 不 同 需求 。 其 中 所 有 的 多 维 数 
据 集 和 维度 定义 都 可 以 从 统一 空间 模型 中 查阅 。 统 一 空间 模型 是 一 个 中 心 元 数据 库 , 其 中 
定义 了 业务 实体 .业务 逻辑 .计算 和 度量 ,可 作为 所 有 报表 .电子 表格 .OLAP 浏览 器 .KPI 和 
分 析 应 用 程序 的 源 来 使 用 。 在 SQL Server 2005 中 ,关系 数据 库 和 多 维 数 据 库 之 间 的 界限 
变 得 模糊 ,可 以 将 数据 存储 在 关系 数据 库 或 多 维 数据 库 中 。 

SQL Server 2000 Analysis Services 由 两 个 主要 的 互补 功能 组 成 : OLAP 和 数据 挖掘 。 
这 两 个 组 件 在 Analysis Services 2005 中 仍然 存在 ,并 且 是 分 析 应 用 程序 的 基石 。 

Analysis Services 2005 OLAP 中 的 功能 改进 主要 可 以 归纳 为 两 类 改进 : 一 是 启用 了 一 
些 新 的 分 析 应 用 程序 ,而 达到 此 目的 做 法 便 是 添加 全 新 的 功能 ,或 是 使 复杂 功能 的 构建 变 得 
更 加 简单 ;二 是 增强 了 分 析 应 用 程序 的 企业 适应 性 。 


8.1.3 SQL Server 2005 DW 工具 


SQL Server 2005 新 增 了 两 个 组 件 : SQL Server Management Studio 和 SQL Server 
Business Intelligence Development Studio。 

SQL Server 2005 Business Intelligence 工具 集 提供 了 一 种 端 到 端的 BI 应 用 程序 集成 。 
在 设计 方面 ,Business Intelligence Development Studio 是 第 一 款 专 门 为 商务 智能 系统 开发 
人 员 设 计 的 集成 开发 环境 ,Business Intelligence Development Studio 构建 于 Visual Studio 
2005 技术 之 上 , 它 为 BI 系统 开发 人 员 提 供 了 一 个 丰富 、 完 整 的 专业 开发 平台 ,调试 、 源 代码 
控制 以 及 脚本 和 代码 的 开发 均 可 用 于 所 有 的 BI 应 用 程序 组 件 。 在 合成 方面 ,“ 数 据 转 换 服 
务 ” 已 被 重新 编写 ,现在 的 DTS 可 以 高 速 执行 超大 数据 量 的 复杂 数据 集成 .转换 和 合成 ， 
Business Intelligence Development Studio 使 程序 包 的 构建 和 调试 变 得 更 加 生动 有 趣 ,DTS、 
Analysis Services 和 Reporting Services 共同 提供 了 一 个 源 自 异 类 源 的 无 颖 数据 视图 。 在 
存储 方面 ,在 SQL Server 2005 中 ,关系 数据 库 和 多 维 数据 库 之 间 的 界限 变 得 更 加 模糊 ,您 
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可 以 将 数据 库存 储 在 关系 数据 库 、 多 维 数据 库 中 ,或 使 用 新 增 的 “主动 缓存 ”功能 ,充分 利用 
两 种 数据 库 各 自 的 优点 。 在 分 析 方 面 ,现在 结合 了 其 他 的 重要 新 算法 (包括 关联 规则 、 时 间 
序列 .回归 树 .序列 群集 .神经 网 络 和 贝 叶 斯 算法 ) ,使 得 这 一 功能 更 加 完美 。 在 Analysis 
Services 多 维 数据 集中 也 添加 了 一 些 重要 的 新 增 功能 : 关键 绩效 指标 框架 、MDX 脚本 ,以 
及 其 他 的 内 置 高 级 业务 分 析 方 法 。Reporting Services 报告 提交 和 管理 框架 使 得 复杂 的 分 
析 方 法 更 易于 向 最 广泛 的 潜在 受众 分 发 。 在 交付 方面 ,Reporting Services 将 Microsoft 
Business Intelligence 平台 的 用 户 群 体 延伸 至 那些 需要 使 用 分 析 功 能 的 商务 用 户 ,Reporting 
Services 是 一 种 企业 托管 报告 环境 , 它 通 过 Web 服务 进行 岩 入 和 管理 ,可 以 用 大 量 的 交互 
和 打印 选项 ,以 各 种 不 同 的 格式 个 性 化 设置 和 提交 报告 ,通过 将 报告 以 数据 源 的 形式 分 发 至 
下 游 商务 智能 ,复杂 分 析 可 以 覆盖 更 广泛 的 受众 。 特 殊 查 询 和 分 析 工 具 将 继续 承担 在 
Analysis Services 和 关系 数据 库 中 访问 数据 的 常用 工具 角色 。 在 管理 方面 ,SQL Server 
Management Studio 集成 了 对 SQL Server 2005 所 有 组 件 的 管理 ,Business Intelligence 从 
业者 都 将 得 益 于 ,服务 器 “能 力 ” 扩 展 这 一 用 户 盼望 已 久 的 功能 增强 , 即 从 关系 引 警 (如 伸缩 
性 、 可 靠 性 .可 用 性 .可 编程 性 等 ) 扩 展 为 全 套 的 BI 平台 组 件 。 

SQL Server 2005 Business Intelligence 组 件 的 主要 目标 是 支持 在 各 种 规模 的 企业 中 开 
发 和 使 用 商务 智能 ,并 使 其 能 够 供 所 有 员工 使 用 ,不 仅 包括 管理 层 和 分 析 师 ,还 包括 操作 人 
员 和 外 部 委托 人 。 因 此 ,SQL Server 2005 具有 完整 .集成 . 易 用 的 特点 , 它 以 Web 服务 的 形 
式 发 布 数据 ,而 且 仅 通过 日 常 硬件 便 可 提供 极 佳 的 性 能 ,另外 它 还 包含 许多 新 增 功能 ,您 可 
以 使 用 这 些 新 增 功能 开发 创新 的 分 析 应 用 程序 。 


8.2 福 马 特 商 店 销售 分 析 数 据 仓库 系统 的 分 析 与 设计 


在 图 8. 2 所 示 的 24 张 表 中 ,包含 了 福 马 特 商 店 日 常 经 营业 务 的 数据 ,如 人 事 管 理 中 的 
员工 信息 存储 在 employee 表 中 ,员工 所 属 部 门 信息 存储 在 department 表 中 ,职务 信息 则 存 
储 在 position 表 中 ,库存 管理 业务 中 的 仓库 类 型 
存储 在 warehouse_class 表 中 ,具体 的 仓库 存储 
raserve_enployes 在 warehouse 中 。 它 是 福 马 特 商 店 的 原始 数据 。 
a 福 马 特 市 场 部 的 商务 需求 是 要 对 1998 年 进 
i 行 的 所 有 销售 业务 数据 进行 多 角度 分 析 , 以便 市 
en 场 分 析 人 员 能 在 查询 数据 库 时 获取 快速 的 响应 ， 
< 高 层 管理 人 员 也 能 从 总 体 上 把 握 影响 本 年 度 销 
售 的 因素 。 这 需要 利用 存储 在 公司 业务 数据 库 
中 的 数据 建立 数据 仓库 ,进而 创建 可 用 于 分 析 的 

图 8.2 福 马 特 商 店 的 业务 数据 。 ”多 维 数据 结构 。 
本 节 只 着 眼 于 销售 方面 的 数据 ,因而 把 与 销 
售 相关 的 表 提 炼 出 来 进行 分 析 。 在 foodmart. mdb 数据 库 中 ,销售 业务 的 数据 和 时 间 、 促 销 
手段 .产品 和 店铺 等 都 有 关系 ,它们 的 关系 体现 在 表 与 表 之 间 的 逻辑 关系 上 。 要 从 业务 数据 
出 发 设计 数据 仓库 的 结构 ,必须 明确 业务 数据 本 身 的 结构 ,而 业务 数据 的 关系 一 般 基于 关系 
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使 用 向 导 他 建 表 
通过 输入 数据 他 se 表 


account 


[ST 


category 


eurreney 


回回 回回 加 加 加 吾 斩 功 加 加 


回回 回回 回回 加 加 下马 四 四 起 
§ 


数据 库 设 计 的 范式 。 数 据 仓 库 中 表 的 关系 不 受 关系 数据 库 设计 范式 的 约束 ,但 也 要 遵循 一 
定 的 结构 规范 ,如 星 型 结构 和 雪花 模型 结构 即 是 这 种 类 型 的 规范 ,同时 也 是 数据 仓库 逻辑 结 
构 的 两 种 类 型 。 

本 节 用 雪花 模型 结构 来 构建 福 马 特 商 店 的 销售 数据 仓库 ,逻辑 结构 设计 如 图 8. 3 所 示 。 
在 数据 仓库 的 逻辑 结构 中 ,数据 表 可 以 划分 为 两 类 : 一 类 是 事实 数据 表 , 用 来 存储 数据 仓库 
中 的 实际 数据 ,如 这 里 存储 1998 年 销售 数据 的 sales_fact_1998 表 ; 另 一 类 是 维度 数据 表 ， 
用 来 存储 数据 仓库 中 的 维度 数据 ,如 这 里 的 关于 时 间 、 促 销 手 段 和 产品 等 分 析 要 素 的 表 。 


图 8.3 销售 数据 仓库 雪花 模型 结构 设计 图 


根据 原始 数据 的 特点 ,在 本 例 中 设计 的 维度 表 和 事实 表 与 原始 数据 中 的 表 名 及 结构 都 
一 致 。 在 实际 设计 的 时 候 ,通常 需要 根据 需求 情况 重新 建立 与 原始 数据 不 同 的 表 结 构 。 这 
主要 是 因为 传统 业务 的 数据 库 是 用 来 进行 事务 处 理 的 ( 即 OLTP) ,而 数据 仓库 则 是 用 来 进 
行 分 析 处 理 的 ( 即 OLAP) ,用 途 的 不 同 决定 了 其 结构 的 不 同 。 

数据 仓库 也 是 一 种 数据 库 , 其 管理 同样 是 通过 数据 库 管 理 系统 来 进行 的 。 因 此 ,数据 仓 
库 可 以 像 普通 数据 库 一 样 进行 创建 、 修 改 和 删除 。 当 数据 仓库 的 逻辑 结构 设计 完 后 ,就 可 以 
创建 物理 数据 仓库 了 。 


8.3 数据 仓库 的 实现 


8.3.1 SQL Server 的 数据 仓库 创建 


可 以 在 SQL Server Management Studio 中 按照 一 般 的 建立 数据 库 的 方法 建立 一 个 名 

为 foodmartsaleDW 的 数据 仓库 ,把 设计 的 表 创建 好 ,数据 类 型 依据 原始 数据 库 中 各 个 表 和 

字段 的 数据 类 型 进行 设置 。 由 于 这 里 的 数据 仓库 表 结 构 与 原始 数据 库 中 的 表 结 构 基 本 一 

致 ,因此 ,创建 foodmartsaleDW 数据 仓库 的 物理 结构 过 程 也 可 以 在 ETL 阶段 完成 。 数 据 

仓库 的 设计 可 以 说 是 数据 分 析 和 商业 智能 最 基础 的 工作 。 良 好 的 数据 仓库 结构 设计 是 以 后 
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工作 能 顺利 进行 的 保证 ,而 数据 仓库 中 的 数据 则 一 般 要 经 过 “提取 一 转换 一 加 载 ” 的 过 程 从 
原始 业务 数据 中 获取 ,这 就 是 ETL 过 程 。 

这 里 的 任务 就 是 要 把 数据 从 foodmart. mdb 数据 库 中 装载 到 foodmartsaleDW 数据 仓 
库 中 。 需 要 用 到 SQL Server Integration Services 服务 , 即 SSIS ,其 操作 步骤 如 下 。 

(1) 打开 Business Intelligence Development Studio ,选择 “文件 -新 建 ”"* 项 目 ” 命 
令 , 弹 出 “新 建 项 目 ” 对 话 框 ,展开 “商业 智能 项 目 ” 选 项 ,在 “模板 ” 窗 格 中 选择 “Integration 
Services 项 目 ” 选 项 ,把 项 目 命 名 为 foodmartsale ETL, 如 图 8.4 所 示 。 这 时 会 在 BI Studio 
环境 中 打开 用 于 设计 SSIS 的 各 种 工具 和 窗口 ,数据 提取 、 转 换 和 加 载 的 操作 都 在 这 个 界面 
下 进行 。 


项 目 类 型 吧 ) 模板 加 ) 
商业 智能 项 目 
由 -其 他 项 目 类 型 


Visaal Studie 已 安装 的 模板 


Iategration Services 项 目 
ervices 网 报表 服务 器 项 目 向 导 
蚁 报表 服务 器 项 目 图 报表 模型 项 目 


我 的 模板 
国 搜 索 联机 模板 


创建 新 的 SQL Server Integration Services 项 目 。 
foodnartsale ETU 
D:\My Docunents\Visual Studio 2005\projects 


中 foodnartsale ETL 


图 8.4 创建 foodmartsale ETL 项 目 


(2) 选择 “项 目 ”>“SSIS 导入 和 导出 向 导 ” 命 令 , 这 时 会 弹出 SSIS 导入 和 导出 向 导 的 
欢迎 界面 , 单 击 “ 下 一 步 ” 按 钮 。 

(3) 在 “选择 数据 源 ” 窗 口中 的 “数据 源 ” 下 拉 列 表 中 选择 Access 数据 源 ,如 图 8.5 所 
示 。 然 后 在 “文件 名 ”文本 框 中 选择 此 项 目 文件 夹 中 的 foodmart 2000. mdb 文件 。 

(4) 在 随即 打开 的 窗口 中 选择 数据 的 导出 目标 ,这 里 选择 SQL Native Client, 如 图 8.6 
所 示 。 设 置 好 服务 器 及 其 登录 信息 后 .选择 foodmartsale DW 数据 仓库 作为 目标 数据 库 , 如 
果 在 以 前 的 步骤 中 没有 创建 此 数据 库 , 可 以 在 此 窗口 中 单 击 “新 建 " 按 钮 ,在 打开 的 “创建 数 
据 库 ” 窗 口中 创建 此 数据 库 , 单 击 * 下 一 步 ” 按 钮 继续 操作 。 

(5) 此 时 将 打开 如 图 8.7 所 示 的 窗口 ,通过 这 个 窗口 可 以 选择 需要 复制 的 是 数据 源 的 
多 个 表 和 视图 ,还 是 自 定义 的 查询 ,这 里 选择 “复制 一 个 或 多 个 表 或 视图 的 数据 ” 单 选 按 钮 ， 
单 击 “ 下 一 步 ” 按 钮 。 

(6) 接着 会 让 用 户 选择 源 表 和 源 视 图 ,如 图 8. 8 所 示 。 按 照 前 面 对 数 据 仓库 的 设计 ,这 
里 选择 原始 库 中 的 time_by_day、promotion、product、 product_class、customer, store 和 
sales_fact_1998 表 作 为 需要 输入 的 表 。 这 里 对 原始 库 中 需要 导入 到 数据 仓库 的 数据 有 很 强 
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ver 导入 和 导出 向 导 


择 数据 源 
选择 要 从 中 复制 数据 的 源 。 
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图 8.5 选择 foodmart 2000. mdb 数据 源 
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图 8.6 选择 数据 仓库 目标 
。201。 
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8.7 指定 复制 类 型 


的 可 定制 性 ,对 这 些 已 经 选择 的 表 中 的 字段 还 可 以 进行 筛选 和 改变 ,对 不 需要 的 字段 进行 去 
除 操作 ,这 就 是 所 谓 的 数据 清理 。 当 然 也 可 以 选择 其 他 表 一 起 导入 数据 仓库 中 。 由 此 可 以 
看 到 ,业务 数据 库 中 的 所 有 数据 不 一 定 都 必须 体现 在 数据 仓库 中 ,数据 仓库 中 的 数据 也 有 可 
能 是 经 过 业务 数据 库 中 的 数据 运算 而 得 到 的 ,这 都 取决 于 具体 商务 活动 的 需求 。 


选择 源 表 和 源 视图 
选择 一 个 或 多 个 要 复制 的 表 和 视图 。 
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图 8.8 选择 源 表 和 源 视 图 并 定制 映射 方式 
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在 图 8. 8 的 界面 中 ,还 可 以 对 数据 导入 的 目标 进行 定制 ,可 以 对 映射 方式 进行 编辑 ,其 
至 可 以 自己 写 CREATE TABLE 语句 作为 复制 的 目标 表 。 这 些 改变 都 可 以 体现 在 数据 仓 
库 的 物理 结构 中 。 这 里 不 对 映射 及 其 目标 进行 变更 ,保持 默认 的 状态 ,使 生成 的 数据 仓库 的 
物理 模型 完全 符合 前 面 对 数 据 仓库 的 逻辑 模型 的 设计 。 

(7) 在 以 上 操作 完成 后 , 单 击 “下 一 步 ? 按 钮 ,系统 将 会 把 前 面 的 操作 进行 列表 并 要 求 用 
户 确 认 ,提示 将 会 把 包 以 Packagel. dtsx 作为 文件 名 保存 在 项 目 文件 夹 下 面 ,而 且 不 会 立即 
执行 。 确 认 无 误 后 单 击 “ 完 成 ”按钮 。 

(8) 在 “解决 方案 资源 管理 器 ”" 窗 格 中 展开 “SSIS 包 ” 文 件 夹 , 在 Packagel. dtsx 上 右 击 ， 
从 弹出 的 快捷 菜单 中 选择 “ 设 为 启动 对 象 ”命令 ,如 图 8.9 所 示 。 

(9) 单 击 工具 条 上 的 虎 按 钮 运行 这 个 工程 ,可 以 发 现在 SSIS 设计 界面 的 “控制 流 ” 和 
“数据 流 ” 等 选项 卡 内 都 有 对 象 在 活动 ,这 是 系统 正在 把 数据 从 foodmart 2000. mdb 数据 库 
中 按照 前 面 所 确定 的 规则 装载 到 foodmartsaleDW 数据 仓库 中 。 

(10) 数据 装载 过 程 完 成 后 ,切换 到 SQL Server Management Studio, 展 开 foodmartsaleDWV 
数据 仓库 可 以 发 现 ,已 经 按照 设计 要 求 建立 好 了 数据 仓库 ,并 且 仓库 中 已 经 存储 了 业务 数 
据 ,如 图 8. 10 所 示 。 
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图 8.9 设置 Packagel. dtsx 为 启动 对 象 图 8.10 数据 装载 后 的 foodmartsaleDW 数据 仓库 


以 上 描述 了 从 已 知 源 创建 自 定 义 Analysis Services 数据 库 的 基本 步骤 。 这 种 通过 “多 
维 数据 集 向 导 ” 和 “维度 向 导 ” 创 建 的 方法 与 创建 Analysis Services 2005 数据 库 的 标准 方法 
十 分 类 似 。 创 建 Analysis Services 2005 分 析 应 用 程序 的 另外 一 种 备 选 方法 就 是 选择 “多 维 
数据 集 向 导 ” 第 二 个 屏幕 上 的 “在 不 具备 数据 源 的 前 提 下 设计 商务 智能 模型 "选项 。 这 种 设 
计 会 从 模板 生成 一 个 完全 可 自 定义 的 应 用 程序 ,此 处 的 模板 : 具有 丰富 的 维度 结构 和 分 析 
功能 ,还 有 可 能 包括 一 个 关系 型 数据 仓库 和 DTS 包 。Microsoft、 集 成 商 或 独立 软件 供应 商 
都 可 以 提供 这 种 模板 。 不 管 采 用 哪 种 通过 向 导 创 建 的 方法 ,是 从 源 数据 库 创 建 , 还 是 从 模板 
创建 ,都 可 以 设计 相同 的 Analysis Services 数据 库 。 第 一 种 选项 假设 您 将 创建 一 个 完全 自 
定义 的 系统 。 对 象 名 称 和 结构 都 是 可 以 完全 自 定义 的 ,初始 设计 是 受 源 数据 库 中 的 名 称 和 
结构 所 驱动 的 。 模 板 选 项 也 可 以 创建 一 个 完全 自 定义 的 数据 库 , 但 是 初始 设计 是 受 专家 主 
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题 区 域 模板 所 驱动 的 。 
8.3.2 OLAP 的 实施 


OLAP(On-Line Analysis Processing ,联机 分 析 处 理 ) 也 称 为 在 线 分 析 处 理 。OLAP 是 
由 关系 数据 库 之 父 E.F. Codd 于 1993 年 提出 的 一 种 数据 动态 分 析 模型 , 它 允 许 以 一 种 称 为 
多 维 数据 集 的 多 维 结构 访问 来 自 商 业 数据 源 ( 如 数据 仓库 ) 的 经 过 聚合 和 组 织 整 理 的 数据 。 
以 此 为 标准 ,OLAP 作为 单独 的 一 类 产品 同 OLTP 得 以 明显 区 分 。OLAP 是 共享 多 维 信息 
的 .针对 特定 问题 的 联机 数据 访问 和 分 析 的 快速 软件 技术 。 它 通过 对 信息 的 多 种 可 能 的 观 
察 形 式 进 行 快速 .稳定 一 致 和 交互 性 的 存 取 , 人 允许 管理 决策 人 员 对 数据 进行 深入 观察 。 决 策 
数据 是 多 维 数据 ,多 维 数据 就 是 决策 的 主要 内 容 。OLAP 专门 设计 用 于 支持 复杂 的 分 析 操 
作 , 侧 重 对 决策 人 员 和 高 层 管理 人 员 的 决策 支持 ,可 以 根据 分 析 人 员 的 要 求 快速 ,灵活 地 进 
行 大 数据 量 的 复杂 查询 处 理 , 并 且 以 一 种 直观 而 易 懂 的 形式 将 查询 结果 提供 给 决策 人 员 ,以 
便 他 们 准确 掌握 企业 (公司 ) 的 经 营 状况 ,了 解 对 象 的 需求 ,制定 正确 的 方案 。 即 在 分 析 问 题 
的 时 候 , 同 样 的 现象 ,会 从 多 个 角度 去 分 析 考 虑 ,并 且 有 时 候 还 会 从 几 个 角度 综合 起 来 进行 
分 析 。 这 就 是 OLAP 分 析 最 基本 的 概念 : 从 多 个 观察 角度 的 灵活 组 合 来 观察 数据 ,从 而 发 
现 数据 内 在 规律 。 

联机 分 析 处 理 具有 灵活 的 分 析 功 能 、 直 观 的 数据 操作 和 分 析 结 果 可 视 化 表示 等 突出 优 
点 ,从 而 使 用 户 对 基于 大 量 复杂 数据 的 分 析 变 得 轻松 而 高 效 ,以 利于 迅速 做 出 正确 判断 。 它 
可 用 于 证 实 人 们 提出 的 复杂 的 假设 ,其 结果 是 以 图 形 或 者 表格 的 形式 来 表示 的 对 信息 的 总 
结 。 它 并 不 将 异常 信息 标记 出 来 ,是 一 种 知识 证 实 的 方法 。 

OLAP 委员 会 对 联机 分 析 处 理 的 定义 为 : 使 分 析 人 员 ,管理 人 员 或 执行 人 员 能 够 从 多 
种 角度 对 从 原始 数据 中 转化 出 来 的 .能够 真正 为 用 户 所 理解 的 .并 真实 反映 企业 维特 性 的 信 
息 进行 快速 ,一致 ,交互 地 存 取 ,从 而 获得 对 数据 的 更 深入 了 解 的 一 类 软件 技术 。OLAP 的 
目标 是 满足 决策 支持 或 多 维 环境 特定 的 查询 和 报表 需求 , 它 的 技术 核心 是 “ 维 " 这 个 概念 , 因 
此 OLAP 也 可 以 说 是 多 维 数据 分 析 工 具 的 集合 。 

假设 要 进行 产品 销售 的 财务 分 析 , 分 析 的 角度 包括 时 间 .产品 类 别 .市场 分 布 . 实 际 发 生 
与 预算 四 方面 内 容 , 分 析 的 财务 指标 包括 : 销售 额 、 销 售 支出 .毛利 (等 于 销售 额 减 销 售 支 
出 ) 费用、 纯利 (等 于 毛利 减 费用 ) 等 内 容 , 则 可 以 建立 如 下 的 数据 结构 : 该 数据 结构 的 中 心 
是 主 表 ,里 面包 含 了 所 有 分 析 维 度 的 外 键 , 以 及 所 有 的 财务 指标 ,可 计算 推导 的 财务 指标 不 
计 在 内 , 称 之 为 事实 表 (fact table)。 周 围 的 表 分 别 是 对 应 于 各 个 分 析 角 度 的 维 表 
(dimension table) ,每 个 维 表 除 了 主键 以 外 ,还 包含 了 描述 和 分 类 信息 。 无 论 原 来 的 业务 数 
据 的 数据 结构 为 何 ,只 要 原 业 务 数据 能 够 整理 成 为 以 上 模式 , 则 无 论 业 务 人 员 据 此 提出 任何 
问题 ,都 可 以 用 SQL 语句 进行 表 连 接 或 汇总 (table join and group by) 实 现 数据 查询 和 解答 
(当然 ,有 一 些 现成 的 ROLAP 前 端 分 析 工 具 是 可 以 自动 根据 以 上 模型 生成 SQL 语句 的 ) 。 
这 种 模式 被 称 为 星 型 模式 (star-schema) ,可 应 用 于 不 同 的 联机 分 析 处 理应 用 中 。 但 有 时 维 
表 的 定义 会 变 得 复杂 ,例如 对 产品 维 , 既 要 按 产 品种 类 进行 划分 ,对 某 些 特殊 商品 ,又 要 
另外 进行 品牌 划分 ,商品 品牌 和 产品 种 类 划分 方法 并 不 一 样 。 因 此 , 单 张 维 表 不 是 理想 的 解 
决 方案 ,可 以 采用 以 下 方式 ,这 种 数据 模型 实际 上 是 星 型 结构 的 拓展 , 称 之 为 雪花 型 模式 
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(Csnow-flake schema) 。 无 论 采用 星 型 模式 还 是 雪花 型 模式 ,关系 型 联机 分 析 处 理 都 具有 以 
下 特点 : 数据 结构 和 组 织 模式 需要 预先 设计 和 建立 ;数据 查询 需要 进行 表 连 接 , 在 查询 性 能 
测试 中 往往 是 影响 速度 的 关键 ;数据 汇总 查询 (例如 查询 某 个 品牌 的 所 有 产品 销售 人 额 ) ,需要 
进行 group by 操作 ,虽然 实际 得 出 的 数据 量 很 少 ,但 查询 时 间 变 得 更 长 ;为 了 改善 数据 汇总 
查询 的 性 能 ,可 以 建立 汇总 表 , 但 汇总 表 的 数量 与 用 户 分 析 的 角度 数目 和 每 个 角度 的 层次 数 
目 密 切 相 关 。 例 如 ,用 户 从 8 个 角度 进行 分 析 , 每 个 角度 有 3 个 汇总 层次 , 则 汇总 表 的 数目 
高 达 3 的 8 次 方 。 这 时 可 以 采取 对 常用 汇总 数据 建立 汇总 表 , 对 不 常用 的 汇总 数据 进行 
group by 操作 ,这 样 来 取得 性 能 和 管理 复杂 度 之 间 的 均衡 。 

OLAP 将 数据 分 为 两 种 特征 ,一 种 为 表现 特征 ,如 一 个 销售 分 析 模 型 中 的 销售 额 、 毛 利 
等 ;还 有 一 种 为 角度 特征 ,如 销售 分 析 中 的 时 间 周 期 .产品 类 型 、 销 售 模式 、 销 售 区 域 等 。 前 
者 是 被 观察 的 对 象 ,OLAP 术语 称 之 为 度量 数据 ,后 者 为 观察 视角 ,OLAP 术语 称 之 为 维 数 
据 。 如 果 建 立 这 样 一 个 模型 ,我 们 可 以 根据 业务 需求 ,从 产品 类 型 角度 去 观察 各 个 销售 地 区 
的 销售 额 数据 (以 产品 类 型 和 销售 地 区 为 维 、 以 销售 额 为 度量 ) ;还 可 以 从 销售 模式 的 角度 去 
观察 各 个 销售 地 区 的 销售 额 数据 (以 销售 模式 和 销售 地 区 为 维 . 以 销售 额 为 度量 )。 在 
Max@X Analyser 的 OLAP 模型 中 ,每 个 模型 最 多 可 以 设 定 255 个 维 、1024 个 度量 ,也 就 是 
说 ,可 以 从 255 个 角度 或 者 角度 组 合 , 去 同时 观察 1024 个 数据 对 象 的 变化 。 还 可 以 对 数据 
进行 钻 取 ,以 获得 更 为 精确 的 信息 。 在 分 析 过 程 中 ,可 能 需要 在 现 有 数据 基础 上 ,将 数据 进 
一 步 细 化 ,以 获得 更 为 精确 的 认识 。 这 就 是 OLAP 中 数据 销 取 的 概念 。 比 如 ,在 销售 分 析 
中 , 当 以 产品 类 型 和 销售 地 区 为 维 、 以 销售 额 为 度量 进行 分 析 的 时 候 , 可 能 希望 进一步 观察 
某 类 产品 的 不 同 销售 模式 在 各 个 销售 地 区 的 表现 ,这 时 就 可 以 在 产品 大 类 这 个 数据 维 下 面 ， 
再 加 上 一 个 销售 模式 维 , 从 而 获得 相应 的 信息 。 

下 面 创建 数据 Cube。 和 报表 不 同 ,OLAP 分 析 所 需 的 原始 数据 量 是 非常 庞大 的 。 一 个 
分 析 模 型 ,往往 会 涉及 数 百 万 条 数 千 万 条 ,甚至 更 多 ;而 分 析 模型 中 包含 多 个 维 数据 ,这 些 
维 又 可 以 由 浏览 者 作 任 意 的 提取 组 合 。 这 样 的 结果 就 是 大 量 的 实时 运算 导致 的 时 间 延 滞 。 
一 个 对 于 1000 万 条 记录 的 分 析 模 型 ,如果 一 次 提取 4 个 维度 进行 组 合 分 析 , 那 么 实际 的 运 
算 次 数 将 达到 4 的 1000 次 方 的 数量 : 这 样 的 运算 量 将 导致 数 十 分 钟 乃 至 更 长 的 等 待 时 间 。 
如 果 用 户 对 维 组 合 次 序 进行 调整 ,或 者 增加 减少 某 些 维度 的 话 , 又 将 是 一 个 重新 的 计算 过 
程 。 从 上 面 分 析 , 可 以 得 出 结论 ,如 果 不 能 解决 OLAP 运算 效率 问题 的 话 ,OLAP 将 是 一 个 
毫 无 实用 价值 的 概念 。 那 么 ,作为 一 个 成 熟 产 品 是 如 何 解 决 这 个 问题 的 呢 ? 这 就 是 OLAP 
中 一 个 非常 重要 的 技术 : 数据 Cube 预 运算 。 一 个 OLAP 模型 中 ,度量 数据 和 维 数据 应 该 
实现 确定 ,一旦 两 者 确定 下 来 ,可 以 对 数据 进行 预先 的 处 理 , 在 正式 发 布 之 前 ,将 数据 根据 维 
进行 最 大 限度 的 聚 类 运算 ,运算 中 会 考虑 到 各 种 维 组 合 情 况 ,运算 结果 将 生成 一 个 数据 
Cube, 并 保存 在 服务 器 上 。 这 样 , 当 最 终 用 户 在 调 阅 这 个 分 析 模 型 的 时 候 , 就 可 以 直接 使 用 
这 个 Cube, 在 此 基础 上 根据 用 户 的 维 选择 和 维 组 合 进行 复 运 算 , 从 而 达到 实时 响应 的 这 么 
一 个 效果 。 作 为 一 个 成 熟 的 产品 ,Max@X Analyser 无 论 是 在 Cube 创建 还 是 后 续 的 浏览 
操作 ,效率 都 是 非常 高 的 。 测 试 结果 表明 : 原始 数据 行 数 在 3200 万 条 记录 的 时 候 , 包 含 
10 个 维 数据 组 合 、2 个 度量 数据 的 Cube, 创建 周期 为 132 分 钟 ,装载 效率 是 12. 5 秒 。 这 样 
的 成 绩 对 比 世 界 上 任何 一 个 高 端 OLAP 同类 产品 ,都 不 逊色 。 
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除 此 以 外 ,OLAP 通常 包括 数据 旋转 (变换 观察 维 组 合 顺序 ) .数据 切片 (过 滤 无 关 数 
据 , 对 指定 数据 进行 重点 观察 ) ,以 及 对 数据 进行 跨行 列 运算 (如 Max@X Analyser 中 的 增 
加 行列 差额 .等 比 环比 等 扩展 运算 ) 等 功能 。 

传统 方式 下 的 OLAP 实施 一 般 需 要 几 个 步骤 : 

@ 建立 数据 仓库 ,将 原始 数据 (可 能 存储 在 不 同 数据 库 ) 进 行 抽取 、 清 洗 、 转 换 、 过 滤 后 ， 
形成 统一 的 数据 ,存储 在 数据 仓库 中 。 

@ 根据 业务 需求 建立 数据 集 市 。 

@ 部 署 专业 的 OLAP Server, 并 使 用 工具 创建 OLAP 模型 。 

@ 建立 发 布 机 制 , 为 发 布设 计 外 围 应 用 扩展 。 

Analysis Services 2005 使 关系 数据 库 与 多 维度 OLAP 数据 库 之 间 的 界线 变 得 更 加 模 
糊 。OLAP 数据 库 分 析 应 用 程序 一 直 以 来 都 有 着 巨大 的 优势 ,这 些 优 势 主要 体现 在 以 下 几 
个 方面 : 卓越 的 查询 性 能 、 丰 富 的 分 析 功 能 以 及 其 易于 业务 分 析 师 使 用 的 操作 简单 性 。 

传统 方式 下 的 OLAP 实施 需要 的 几 个 步骤 ,其 中 ,耗费 周期 最 长 的 应 该 是 数据 仓库 的 
建设 。OLAP 有 和 多 种 实现 方法 ,根据 存储 数据 的 方式 不 同 可 以 分 为 ROLAP、MOLAP 和 
HOLAP。 

(1) ROLAP: 表示 基于 关系 数据 库 的 OLAP 实现 (Relational OLAP)。 以 关系 数据 库 
为 核心 ,以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。ROLAP 将 多 维 数据 库 的 多 维 结构 划 
分 为 两 类 表 : 一 类 是 事实 表 , 用 来 存储 数据 和 维 关键 字 ; 另 一 类 是 维 表 , 即 对 每 个 维 至 少 使 

一 个 表 来 存放 维 的 层次 .成员 类 别 等 维 的 描述 信息 。 维 表 和 事实 表 通 过 主 关 键 字 和 外 关 
键 字 联 系 在 一 起 ,形成 了 “ 星 型 模式 ”。 对 于 层次 复杂 的 维 , 为 避免 元 余数 据 占 用 过 大 的 存储 
空间 ,可 以 使 用 多 个 表 来 描述 ,这 种 星 型 模式 的 扩展 称 为 “雪花 模式 ”。ROLAP 的 最 大 好 处 
是 可 以 实时 地 从 源 数 据 中 获得 最 新 数据 更 新 ,以 保持 数据 实时 性 ,缺陷 在 于 运算 效率 比较 
低 ,用 户 等 待 响 应 时 间 比 较 长 。 

(2) MOLAP: 表示 基于 多 维 数据 组 织 的 OLAP 实现 (Multidimensional OLAP)。 以 多 
维 数据 组 织 方式 为 核心 ,也 就 是 说 ,MOLAP 使 用 多 维 数组 存储 数据 。 多 维 数据 在 存储 中 将 
形成 “数据 立方 体 (Cube)” 的 结构 ,此 结构 在 得 到 高 度 优化 后 ,可 以 最 大 程度 地 提高 查询 性 
能 。 随 着 源 数据 的 更 改 ,MOLAP 存储 中 的 对 象 必须 定期 处 理 以 合并 这 些 更 改 。 两 次 处 理 
之 间 的 时 间 将 构成 滞后 时 间 ,在 此 期 间 ,OLAP 对 象 中 的 数据 可 能 无 法 与 当前 源 数据 相 匹 
配 。 维 护 人 员 可 以 对 MOLAP 存储 中 的 对 象 进行 不 中 断 的 增 量 更 新 。MOLAP 的 优势 在 
于 由 于 经 过 了 数据 多 维 预 处 理 , 分 析 中 数据 运算 效率 高 ,主要 的 缺陷 在 于 数据 更 新 有 一 定 延 
灌 。MOLAP 实施 时 首先 对 事实 表 中 的 所 有 外 键 进行 排序 ,并 将 排序 后 的 具体 指标 数值 一 
一 写 进 虚拟 的 多 维 立 方 体 中 。 当 然 ,虚拟 的 多 维 立方 体 只 是 为 了 便于 理解 而 构想 的 ， 
MOLAP 实际 的 数据 存储 放 在 数据 文件 (data file) 中 ,其 数据 放置 的 顺序 与 虚拟 的 多 维 立方 
体 按 z+,y,x 坐标 展开 的 顺序 是 一 致 的 。 同 时 ,为 了 数据 查找 的 方便 ,MOLAP 需要 预先 建 
立 维度 的 索引 ,这 个 索引 被 放置 在 MOLAP 的 概要 文件 Coutline) 中 。 概 要 文件 是 MOLAP 
的 核心 ,相当 于 ROLAP 的 数据 模型 设计 。 概 要 文件 包括 所 有 维 的 定义 (包括 复杂 的 维度 结 
构 ) 以 及 各 个 层次 的 数据 汇总 关系 (例如 在 时 间 维 ,日 汇总 至 月 ,月 汇总 至 季 , 季 汇总 至 年 )， 
这 些 定义 往往 从 关系 型 维 表 中 直接 引入 即 可 。 概 要 文件 也 包括 分 析 指 标的 定义 ,因此 可 以 
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在 概要 文件 中 包含 丰富 的 衍生 指标 ,这 些 衍 生 指标 由 基础 指标 计算 推导 出 来 (例如 ROLAP 
例子 1 中 的 纯利 和 毛利 )。 一 旦 概要 文件 定义 好 ,MOLAP 系统 可 以 自动 安排 数据 存储 的 方 
式 和 进行 数据 查询 。 从 MOLAP 的 数据 文件 与 ROLAP 的 事实 表 的 对 比 可 以 看 出 ， 
MOLAP 的 数据 文件 完全 不 需要 纪录 维度 的 外 键 ,在 维度 比较 多 的 情况 下 ,这 种 数据 存储 方 
式 大 量 地 节省 了 空间 。 但 是 ,如 果 数 据 相 当 稀 蚊 ,虚拟 的 多 维 立 方 体 中 很 多 数值 为 空 时 ， 
MOLAP 的 数据 文件 需要 对 相关 的 位 置 留 空 ,而 ROLAP 的 事实 表 却 不 会 存储 这 些 纪录 。 
为 了 有 效 地 解决 这 种 情况 ,MOLAP 采用 了 稀 跑 维 和 密集 维 相 结合 的 处 理 方 式 。 在 实际 应 
用 中 ,不 可 能 所 有 分 析 的 维度 都 是 密集 的 ,所 有 分 析 的 维度 都 是 稀 朴 的 情况 极为 少见 ,因此 
稀 朴 维和 密集 维 并 用 的 模式 几乎 主导 了 所 有 的 MOLAP 应 用 。 而 稀疏 维和 密集 维 的 定义 
全 部 集中 在 概要 文件 中 ,因此 ,只 要 预先 定义 好 概要 文件 ,所 有 的 数据 分 布 就 自动 确定 了 。 
在 这 种 模式 中 ,密集 维 的 组 合 组 成 了 的 数据 块 (data block) ,每 个 数据 块 是 1/O 读 写 的 基础 
单位 ,所 有 的 数据 块 组 成 了 数据 文件 。 稀 朴 维 的 组 合 组 成 了 索引 文件 ,索引 文件 的 每 一 个 数 
据 纪录 的 末尾 都 带 有 一 个 指针 ,指向 要 读 写 的 数据 块 。 因 此 ,进行 数据 查询 时 ,系统 先 搜索 
索引 文件 纪录 ,然后 直接 调用 指针 指向 的 数据 块 进行 1/O 读 写 ( 如 果 该 数据 块 尚未 驻 留 内 
存 ) ,将 相应 数据 块 调和 人 内存 后 ,根据 密集 维 的 数据 放置 顺序 直接 计算 出 要 查询 的 数据 距离 
数据 块头 的 偏 移 量 ,直接 提取 数据 下 传 到 客户 端 。 因 此 ,MOLAP 方式 基本 上 是 索引 搜索 与 
直接 寻 址 的 查询 方式 相 结 合 , 比 起 ROLAP 的 表 / 索 引 搜 索 和 表 连 接 方 式 , 速 度 要 快 得 多 。 

(3) HOLAP: 表示 基于 混合 数据 组 织 的 OLAP 实现 (Hybrid OLAP), 用 户 可 以 根据 
自己 的 业务 需求 ,选择 哪些 模型 采用 ROLAP, 哪 些 采 用 MOLAP。 一 般 来 说 ,会 将 非常 用 
或 需要 灵活 定义 的 分 析 使 用 ROLAP 方式 ,而 常用 、 常 规模 型 采用 MOLAP 实现 。 

Max@X Analyser 是 属于 第 三 种 的 HOLAP 产品 ,由 于 Max@X Analyser 通过 技术 创 
新 跨越 了 数据 仓库 的 建设 这 一 步骤 ,从 而 极 大 地 压缩 了 相应 的 实施 周期 ,Max@X Analyser 
同时 支持 ROLAP 和 MOLAP 两 种 模式 ,是 属于 第 三 种 HOLAP 的 BI 产品。 其 工作 原理 
为 : 常规 模式 下 ,Max@X Analyser 采用 MOLAP 以 获取 最 大 的 应 用 效率 ,但 是 在 用 户 使 用 
参数 对 数据 进行 实时 的 精确 提取 并 创建 分 析 时 ,或 者 OLAP Server 未 找到 对 应 的 MOLAP 
Cube 时 ,系统 将 实时 地 向 源 数据 库 请 求 相 关 数 据 , 并 自动 创建 临时 Cube 供 浏 览 端 分 析 使 
用 , 即 ROLAP 模式 。 通 过 这 两 者 的 结合 .Max@X Analyser 的 用 户 不 仅 能 快速 地 调 取 常 用 
分 析 模 型 ,同时 对 临时 的 、 个 性 化 的 精确 数据 提取 也 能 有 效 支持 ,从 而 兼顾 OLAP 的 效率 和 

Max@X Analyser 的 OLAP 实施 可 以 分 为 三 个 步骤 进行 : 

(1) 设计 数据 源 。OLAP 分 析 所 需要 的 数据 需要 以 某 种 方式 从 数据 库 中 提取 出 来 ,如 
使 用 SQL 语句 ,或 者 使 用 一 个 存储 过 程 。 这 个 SQL 或 者 存储 过 程 称 之 为 一 个 数据 源 。 

O@ 在 Max@X Analyser 设计 器 中 建立 与 多 个 数据 库 的 连接 参数 ; 

@ 按照 数据 提取 需求 ,根据 向 导 提 示 ,选择 并 创建 适当 类 型 的 数据 源 ,并 以 图 形 化 方式 
创建 SQL 等 数据 提取 方法 ; 

@ 如 果 涉 及 多 个 异 构 数 据 库 ,还 需要 将 这 些 异 构 数 据 库 的 数据 以 虚拟 数据 源 形式 建立 
关联 整合 ,将 其 整合 为 一 个 在 结构 .逻辑 上 统一 的 数据 源 。 

(2) 设计 OLAP 模型 。Max@X Analyser 中 ,OLAP 设计 过 程 非常 简单 ,通过 向 导 创 建 
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一 个 OLAP 模型 ,然后 为 该 模型 指定 上 一 步 设 计 的 数据 源 ,指定 数据 源 返 回信 息 中 的 维 数 
据 和 度量 数据 即 可 。 如 果 度 量 数据 定义 并 非 简单 的 聚 类 求 和 运算 ,还 可 以 进一步 设 定 度量 
数据 的 计算 方法 。 

(3) 发 布 OLAP 设计 成 果 。Max@X Analyser 提供 了 一 个 功能 完整 的 Portal ,最 终 用 
户 就 是 通过 这 个 Portal 进行 报表 浏览 和 OLAP 调用 的 。 在 Max@X Analyser 中 ,OLAP 和 
报表 是 在 项 目 中 一 体 化 维护 发 布 的 ,所 有 只 要 针对 项 目 发 布 即 可 。 

完成 Max@X Analyser 的 项 目 发 布 后 ,还 需要 做 两 件 事情 ,一 是 OLAP 使 用 授权 ,这 在 
Portal 的 授权 体系 中 可 以 得 到 定义 ;二 是 OLAP 的 Cube 运算 ,在 部 署 项 目 后 ,还 需要 在 
Portal 的 任务 定义 模块 中 ,定义 Cube 运算 创建 的 任务 时 间 。 

这 样 一 个 新 的 OLAP 模型 不 仅 已 经 创建 ,并 且 已 部 署 发 布 了 。 

下 面 想象 几 个 应 用 场景 。 

场景 一 : 某 投资 顾问 公司 为 客户 提供 了 VIP 服务 ,VIP 用 户 可 以 定期 收 到 顾问 公司 发 
来 的 外 汇 、 证 券 等 分 析 数 据 ,并 可 以 使 用 OLAP 方式 对 这 些 数据 进行 分 析 。 考 虑 到 数据 安 
全 性 要 求 , 顾 问 公 司 不 打算 在 互联 网 上 提供 操作 平台 ,而 是 直接 将 数据 及 分 析 模 型 发 送 到 各 
个 VIP 客户 的 电子 邮箱 中 ,用 户 只 能 对 收 到 的 数据 进行 分 析 操 作 , 以 这 样 手 段 限制 用 户 的 
访问 范围 ,从 而 达到 保证 数据 安全 的 目的 。 

场景 二 : 某 企 业 老总 经 常 出 差 , 在 旅途 中 并 不 方便 随时 接 入 互联 网 以 连接 公司 IT 系 
统 。 更 多 时 候 是 在 有 条 件 上 网 的 时 候 , 不 方便 详细 观察 分 析 业 务 数据 ,等 到 有 空 来 做 这 些 事 
情 , 又 未 必 有 网络 条 件 了 。 

上 面 两 个 场景 ,都 涉及 OLAP 的 脱 机 分 发 与 使 用 。Max@X Analyser 通过 浏览 端的 一 
个 小 插件 完成 这 些 功 能 。 在 标准 的 运行 过 程 中 ,Max@X Analyser 的 服务 器 ,将 创建 好 的 数 
据 Cube 进行 加 密 和 压缩 后 ,发 送 给 浏览 端 ,而 后 由 浏览 端 进 行 自动 的 校 验 、 解 密 、 解 压缩 ， 
并 允许 用 户 进行 多 维度 的 OLAP 分 析 。Max@X Analyser 具有 世界 上 最 先进 的 Cube 创建 
算法 ,从 而 保证 了 Cube 数据 在 浏览 端 进行 多 维 复 运 算 的 高 效率 和 低 运 算 负 荷 ,在 普通 的 
PC 上 ,可 以 达到 秒 级 的 响应 指标 。 这 样 ,Max@X Analyser 就 完全 具备 了 脱 机 运行 的 条 件 ， 
用 户 在 分 发 的 时 候 只 要 单独 提取 Cube 文件 进行 分 发 即 可 ,剩余 的 事情 由 浏览 端 插件 负责 
完成 。 

OLAP 的 特点 是 : 需要 预先 定义 概要 文件 ;数据 查询 采用 索引 搜索 与 直接 寻 址 的 方式 
相 结合 ,不 需要 进行 表 连 接 ,在 查询 性 能 测试 中 比 起 ROLAP 有 相当 大 的 优势 ;在 进行 数据 
汇总 查询 之 前 ,MOLAP 需要 预先 按 概 要 文件 中 定义 的 数据 汇总 关系 进行 计算 ,这 个 计算 通 
常 以 批 处 理 方式 运行 。 计 算 结 果 回 存在 数据 文件 中 , 当 用 户 查询 时 ,直接 调用 计算 结果 , 速 
度 非 常 快 。 无 论 是 数据 汇总 还 是 计算 衍生 数据 ,预先 计算 的 方式 实际 上 是 用 空间 来 换 时 间 。 
当然 ,用 户 也 可 以 选择 动态 计算 的 方式 ,用 查询 时 间 来 换取 存储 空间 。MOLAP 可 以 灵活 调 
整 时 空 的 取 侈 平衡。 用 户 难以 使 用 概要 文件 中 没有 定义 的 数据 汇总 关系 和 衍生 指标 。 

联机 分 析 处 理 其 他 要 素 包 括 假设 分 析 Cwhatif) .复杂 计算 .数据 评估 等 。 这 些 因素 对 
用 户 的 分 析 效 用 至 关 重 要 ,但 是 与 ROLAP 和 MOLAP 的 核心 工作 原理 的 不 一 定 有 很 紧密 
的 关系 ,事实 上 ,ROLAP 和 MOLAP 都 可 以 在 以 上 三 方面 有 所 建树 ,只 不 过 实现 的 方法 迎 
异 。 假 设 分 析 提 出 了 类 似 于 以 下 的 问题 :“ 如 果 产 品 降价 5% ,而 运费 增加 8% ,对 不 同 地 区 
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的 分 销 商 的 进货 成 本 会 有 什么 影响 ?” 这 些 问题 常用 于 销售 预测 、 费 用 预算 分 配 、 奖 金 制度 确 
定 等 。 据 此 ,用 户 可 以 分 析出 哪些 角度 、 哪 些 因素 的 变化 将 对 企业 产生 重要 影响 ;并 且 ,用户 
可 以 灵活 调节 自己 手中 掌握 的 资源 (例如 费用 预算 等 ) ,将 它 用 到 最 有 效 的 地 方 中 去 。 假 设 
分 析 要 求 OLAP 系统 能 够 随 用 户 的 思路 调整 数据 ,并 动态 反映 出 在 调整 后 对 其 他 数据 的 影 
响 结 果 。 事 实 上 ,进入 OLAP 的 数据 分 两 大 类 : 事实 数据 和 预算 数据 ,例如 本 月 实际 发 生 的 
销售 额 是 事实 数据 ,上 月 对 本 月 的 销售 额 估 算是 预算 数据 。 事 实数 据 一 般 情况 下 不 容 修改 ， 
而 预算 数据 则 应 常常 进行 调整 。OLAP Server 通过 详细 的 权限 定义 区 分 了 数据 的 读 写 权 
限 , 允 许 用 户 对 预算 数据 进行 更 改 , 系 统 可 以 对 其 他 受 影响 的 数据 进行 计算 ,以 反映 出 “假如 
发 生 如 上 情况 ,将 会 引起 以 下 结果 ”的 结论 。 复 杂 计 算是 分 析 人 员 往 往 需 要 分 析 复 杂 的 衍生 
数据 ,诸如 : 同期 对 比 、 期 初 /期 末 余 额 .百分比 份额 计算 .资源 分 配 ( 按 从 项 向 下 的 结构 图 逐 
级 分 配 ) ,移动 平均 ,. 均 方差 等 。 对 这 些 要 求 ,OLAP Server 提供 丰富 的 功能 函数 以 便 用 户 
使 用 。 因 为 只 有 在 无 需 编程 的 环境 下 ,商业 用 户 才能 更 好 地 灵活 利用 这 些 功 能 进行 复杂 的 
真实 世界 模拟 。 数 据 评 估 包 括 两 方面 内 容 , 有 效 性 评估 和 商业 意义 评估 。 在 有 效 性 评估 方 
面 ,数据 抽取 、 清 洗 和 转换 的 规则 的 定义 是 至 关 重 要 的 。 而 合理 的 数据 模型 设计 能 有 效 防止 
无 效 数 据 的 进入 。 例 如 在 ROLAP 中 ,如 果 维 表 没有 采用 范式 设计 (normalise design) ,可 
能 会 接受 如 表 8-1 的 维 表 。 


表 8-1 数据 仓库 中 的 维 表 


机 构 代 码 机 构 名 称 所 属 区 县 所 属 城市 所 属 省 份 
001 越秀 支行 越秀 区 广州 广东 
002 祖 庙 支 行 佛山 广州 广东 


003 染 屏 支行 佛山 南海 广东 


显然 ,002 中 显示 的 佛山 属于 广州 市 ,与 003 中 显示 的 佛山 属于 南海 市 是 矛盾 的 。 这 显 
示 出 数据 源 有 问题 ,但 是 如 果 采 用 星 型 模式 设计 ,ROLAP 无 法 自动 发 现 数据 源 的 问题 。 在 
类 似 情 况 下 ,MOLAP 的 表现 稍 占 优势 。 因 为 MOLAP 需要 预先 定义 概要 文件 ,而 概要 文 
件 会 详细 分 析 维 度 的 层次 关系 ,因此 生成 概要 文件 时 会 反映 数据 源 的 错误 。 因 此 ,在 OLAP 
Server 中 ,记录 003 会 被 拒 收 ,并 纪录 在 出 错 日 志 中 , 供 IT 人 员 更 正 。 但 是 ,OLAP 对 数据 
源 有 效 性 的 验证 能 力 毕 况 是 有 限 的 ,因此 ,数据 有 效 性 必须 从 源 数据 一 级 和 数据 抽取 /清洗 / 
转换 处 理 一 级 来 进行 保障 。 对 用 户 而 言 ,数据 的 商业 含义 评估 更 有 意义 。 在 商业 活动 中 , 指 
标 数 值 的 取 值 范围 是 比较 稳定 的 ,如 果 指 标 数值 突然 发 生变 化 ,或 者 在 同期 比较 、 同 类 比较 
中 有 特殊 表现 ,意味 着 该 指标 代表 的 方方面面 具有 特别 的 分 析 意 义 。 普 通 的 OLAP 往往 需 
要 用 户 自己 去 观察 发 现 异常 指标 ,而 OLAP Server 的 OLAP Minor( 多 维 数据 挖 气功 能) 能 
为 用 户 特 别 地 指出 哪些 条 件 下 的 哪些 指标 偏离 常 值 ,从 而 引起 用 户 的 注意 和 思考 。 例 如 ， 
12 月 份 南部 的 圣诞 礼品 销售 额 不 到 同期 类 似 区 域 (东部 、 中 部 、 西 部 ) 的 50%。 


8.3.3 数据 仓库 中 的 数据 挖掘 


在 数据 仓库 发 展 的 同时 ,一 项 从 大 量 数据 中 发 现 隐 含 知识 的 技术 也 在 学 术 领 域 兴 起 ,这 
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就 是 数据 挖掘 。 数 据 挖掘 也 称 为 数据 库 知 识 发 现 (KDD) ,就 是 将 高 级 智能 计算 技术 应 用 于 
大 量 数据 中 ,让 计算 机 在 有 人 或 无 人 指导 的 情况 下 从 海量 数据 中 发 现 潜在 的 ,有 用 的 模式 
(也 叫 知识 ) 。 最 初 的 数据 挖掘 应 用 一 般 需 要 从 组 织 数据 做 起 ,经 历 算 法 设计 ( 建 模 ) ,挖掘 ， 
评价 ,改进 等 步骤 。 其 中 组 织 整理 数据 占据 大 部 分 时 间 , 大 约 占 到 整个 数据 挖掘 项 目 80% 
的 时 间 。 数 据 挖掘 是 近年 来 信息 爆炸 推动 下 的 新 兴 产 物 ,是 从 海量 数据 中 提取 有 用 知识 的 
热门 技术 。 传 统 的 交易 型 系统 ,20 世纪 90 年 代 兴 起 的 互联 网 技术 及 ERP 系统 在 越 来 越 廉 
价 的 存储 设备 配合 下 ,产生 了 大 量 的 数据 。 但 与 之 相配 合 的 数据 分 析 和 知识 提取 技术 在 相 
当 长 一 段 时 间 里 没有 大 的 进展 ,使 得 存储 的 大 量 原始 数据 没有 被 充分 利用 ,转化 成 指导 生产 
的 “知识 ”, 形 成 “数据 的 海洋 ,知识 的 荡 漠 ”这样 一 种 奇怪 的 现象 。 数 据 挖掘 就 是 从 大 量 数据 
中 发 现 潜 在 规律 ,提取 有 用 知识 的 方法 和 技术 。 因 为 与 数据 库 密切 相关 ,又 称 为 数据 库 知 识 
发 现 (KDD)。 数 据 挖掘 不 但 能 够 学 习 已 有 的 知识 ,而 且 能 够 发 现 未 知 的 知识 ;得 到 的 知识 
是 “ 显 式 ” 的 , 既 能 为 人 所 理解 ,又 便于 存储 和 应 用 ,因此 一 出 现 就 得 到 各 个 领域 的 重视 。 从 
20 世纪 80 年 代 末 的 初 露头 角 到 90 年 代 末 的 广泛 应 用 ,以 数据 挖掘 为 核心 的 商业 智能 CBI) 
已 经 成 为 IT 及 其 他 行业 中 的 一 个 新 宠 。 目 前 数据 挖掘 技术 在 零售 业 的 货 篮 数据 (basket 
data) 分 析 、 金 融 风 险 预测 .产品 产量 质量 分 析 、 分 子 生 物 学 .基因 工程 研究 .Internet 站 点 访 
问 模式 发 现 以 及 信息 搜索 和 分 类 等 许多 领域 得 到 了 成 功 的 应 用 。 如 果 你 访问 著名 的 亚马逊 
网 上 书店 (www. amazon. com) ,会 发 现 当 你 选中 一 本 书后 ,会 出 现 相 关 的 推荐 数目 
Customers who bought this book also bought, 这 背后 就 是 数据 控 掘 技术 在 发 挥 作 用 。 

数据 挖掘 的 真正 普及 是 建立 在 数据 仓库 的 成 功 应 用 之 上 。 一 个 设计 完善 的 数据 仓库 已 
经 将 原始 数据 经 过 了 整理 和 变换 ,在 此 基础 上 再 进行 深入 挖掘 就 是 顺理成章 的 事情 。 数 据 
挖掘 渗透 到 某 些 行业 ,产生 了 一 些 特定 的 应 用 ,比如 现在 经 常会 听 到 的 客户 关系 管理 
(Customer Relationship Management，CRM) 。 客 户 关 系 管理 的 概念 由 来 已 久 , 但 现代 的 
客户 关系 管理 一 般 指 以 客户 数据 为 处 理 对 象 的 一 类 商业 智能 应 用 。 通 过 挖掘 客户 信息 ,发 
现 潜在 的 消费 趋势 或 动向 。 例 如 ,电信 公司 通过 分 析 用 户 通话 模式 (包括 通话 时 间 、 时 段 . 通 
话 量 等 ) ,制订 不 同 的 计 费 方案 ,满足 用 户 的 同时 也 提高 自己 的 利润 。 

创建 商业 智能 应 用 程序 实际 是 利用 数据 挖掘 的 各 种 优势 ,将 其 应 用 到 整个 数据 输入 、 集 
成 .分 析 和 报表 过 程 中 。 数 据 挖掘 并 非 是 最 终结 果 , 它 是 整个 过 程 的 一 部 分 ,在 集成 .分 析 和 
报表 的 每 个 阶段 都 起 到 一 定 的 作用 。 商 业 智能 应 用 程序 的 一 个 主要 目标 是 让 每 个 人 都 可 以 
使 用 数据 挖掘 模型 。 

SQL Server 2005 平台 采用 集中 的 服务 器 存储 数据 挖掘 模型 和 结果 ,该 平台 有 利于 创 
建 智能 应 用 程序 。 这 些 模型 通常 具有 高 度 的 专用 性 , 且 非 常 机 密 。SQL Server 2005 中 数 
据 挖掘 功能 的 目标 是 构建 具备 以 下 特征 的 工具 : 简单 易 用 ,可 提供 一 整套 的 功能 ,可 轻松 嵌 
入 到 产品 应 用 程序 中 ,紧密 集成 其 他 的 SQL Server BI 技术 ,能 够 扩展 数据 挖掘 应 用 程序 的 
市 场 。 通 过 SQL Server 2005 ,Microsoft 努力 将 数据 挖掘 从 博士 们 的 实验 室 中 搬出 来 ,使 得 
负责 设置 和 和 运行 数据 模型 的 开发 人 员 和 DBA、 所 有 分 析 人 员 决策 者 或 者 其 他 使 用 模型 输 
出 的 用 户 都 可 以 使 用 数据 挖掘 ,而 不 需要 具有 任何 专业 知识 。 

SQL Server 2005 的 数据 挖掘 功能 具有 一 个 API, 使 得 应 用 程序 非常 简单 。 利 用 APIL， 
无 需 了 解 每 个 模型 的 内 部 细节 和 工作 原理 ,可 从 客户 端 应 用 程序 调用 预测 模型 。 访 问 数据 
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挖掘 结果 非常 简单 ,通过 使 用 一 种 与 SQL 相似 的 语言 即 可 (Data Mining Extensions to 
SQL 或 DMX), SQL Server 2005 中 最 重要 的 数据 挖掘 功能 是 处 理 大 型 数据 集 的 能 力 。 
SQL Server 2005 允许 模型 对 整个 数据 集运 行 ,从 而 消除 了 采样 方面 的 挑战 。 所 有 数据 挖 
掘 工 具 ( 包 括 Microsoft SQL Server 2005 Analysis Services ) 都 采用 了 多 种 算法 。 另 外 ， 
Analysis Services 是 可 扩展 的 ;第 三 方 ISV( 独 立 软 件 供应 商 ) 可 以 开发 算法 ,并 将 所 开发 算 
法 无 颖 地 融入 到 Analysis Services 数据 挖掘 框架 中 。SQL Server 2005 中 可 以 使 用 很 多 算 
法 : 决策 树 .关联 规 则 、 贝 叶 斯 分 类 、 时 序 聚 类 、 时 间 序列 .神经 网 络 .文本 挖掘 。SQL Server 
2005 还 包含 了 大 量 可 以 立即 使 用 的 算法 。SQL Server 2005 所 使 用 的 模型 允许 其 他 供 货 商 
向 数据 挖掘 引擎 添加 新 模型 。 这 些 模 型 将 与 SQL Server 2005 提供 的 模型 处 于 同等 位 置 。 
集成 阶段 包括 从 异 构 数 据 源 收集 数据 、 传 输 数据 并 加 载 到 一 个 或 多 个 数据 源 中 。 数 据 挖 掘 
工具 与 SQL Server Integration Services 实现 了 集成 。 在 数据 移动 和 转换 阶段 ,可 以 根据 数 
据 挖掘 模型 的 预测 结果 来 分 析 和 修改 数据 。 典 型 的 数据 挖掘 工具 将 在 构建 数据 仓库 后 生成 
结果 ,这 些 结果 独立 于 在 数据 仓库 上 完成 的 其 他 分 析 ,可 单独 进行 分 析 并 生成 预测 或 标识 关 
系 。Microsoft 工具 与 整个 过 程 实现 了 集成 。SQL Server 2005 实现 了 数据 挖掘 和 报表 的 集 
成 ,可 以 通过 简单 灵活 并 且 可 伸缩 的 方式 向 组 织 中 的 任何 人 提供 预测 结果 。 

通过 充分 利用 SQL Server 2005 Reporting Services , 预测 模型 的 结果 通过 将 报表 骨 人 和 
Microsoft SharePoint Services, 可 以 轻松 地 部 署 到 打印 报表 、Microsoft Office 文档 或 局 域 
网 中 。 开 发 数据 挖掘 模型 的 最 佳人 选 时 同时 具备 业务 和 技术 技能 的 人 员 。 

创建 数据 挖掘 应 用 程序 过 程 中 步骤 为 : 

(1) 模型 的 创建 。 开 发 数据 挖掘 预测 查询 。 

(2) 模型 的 训练 。 在 数据 挖掘 应 用 程序 中 使 用 预测 查询 。 

(3) 测试 过 程 。 

作为 数据 挖掘 的 初学 者 ,应 在 构建 原型 模型 的 同时 ,计划 花费 数 周 时 间 来 研究 数据 、 工 
具 以 及 可 供 选择 的 算法 。 开 发 数据 挖掘 模型 的 过 程 包括 以 下 内 容 : 输入 数据 集 .字段 ,确定 
数据 挖掘 算法 .算法 在 计算 过 程 中 所 用 到 的 参数 。 

例如 ,对 于 如 图 8.11 所 示 的 星 型 模式 和 图 8. 12 的 雪花 型 模式 ,设计 的 数据 挖掘 应 用 程 
序 步骤 如 下 : 


eg 
Province_or_street 
county 


图 8.11 Sales 数据 仓库 的 星 型 模式 
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(1) 定义 星 型 .雪花 和 星座 的 实例 ,如 图 8. 11 和 图 8. 12 所 示 。 


province or_stred 
country 


图 8. 12 Sales 数据 仓库 的 雪花 型 模式 


(2) 数据 挖掘 查询 语言 (DMQL) 可 以 用 于 说 明 数 据 挖掘 任务 。 

DMQL 包括 定义 数据 仓库 和 数据 集 市 的 语言 原 语 。 说 明 其 他 数据 挖掘 任务 的 原 语 ,如 
挖掘 概念 /类 描述 .关联 ,分 类 等 挖掘 任务 。 数 据 仓库 和 数据 集 市 可 以 使 用 两 种 原 语 定义 : 
一 种 是 方 定 义 , 另 一 种 是 维 定义 。 

数据 挖掘 查询 语言 DMQL: 


// 方 定义 事实 表 ) 
define aibe < cube name> [< dimension list> ]:<measure list> 
// 维 定义 维 表 ) 
define dimension < dimension name> as 
(<attribute or subdimension list>) 
/| 特殊 情况 左 享 维 表 ) 
// 首 先进 行 "立方 体 定义 " 
define dimension < dimension name>as 
< dimension name first time> in cube 
<cube name first time> 
// 用 DA 定义 星 型 模式 
define aibe sales star [time, item, brandh, location]: 
dbllars sold= sm(sales in dollars), mits sold= oount (* ) 
define dimensian time as (time key, day, day_of week, 
month, quarter, year) 
define dimension item as (item key, item name, brand, 
type, supplier type) 
define dimensian brandh as (oranch key, brandh name, 
brand type) 
define dimensian location as (location key, street, city, 
Province or state，country) 
// 用 DID5 定 义 雪花 型 模式 
define aibe sales snowflake [time, item, branch, location]: 
dollars sold= sm(sales in dollars), mits sold=count (* ) 
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Gefine dimension time as (time key, day, day of week, month, 
Quarter, year) 

Gefine dimensicn item as (item key, item name, brand, type, 
supplier (supplier key, supplier type)) 

define dimension brand as (branch key, branch namey 

Pranch type) 

define dimension location as (location key, street, 
city(city key, provinoe or state,city, country)) 


8.4 数据 仓库 的 应 用 与 管理 


8.4.1 数据 仓库 的 用 户 


数据 仓库 的 用 户 分 为 信息 使 用 者 与 知识 挖掘 者 两 类 。 

(1) 信息 的 使 用 者 以 一 种 可 以 预计 的 、 重 复 的 方式 使 用 数据 仓库 ,他 们 对 数据 仓库 进行 
有 规律 的 信息 访问 ,观察 一 些 概括 性 数据 或 聚集 数据 ,在 战术 管理 层 上 利用 数据 仓库 监控 企 
业 战 略 实施 的 效果 。 他 们 往往 只 涉及 数据 仓库 的 业务 运行 领域 ,希望 在 很 短 的 时 间 请 求 就 
能 够 得 到 响应 ,提交 的 查询 大 多 是 一 些 预先 定义 好 的 查询 ,在 数据 仓库 的 设计 过 程 中 就 要 知 
道 这 些 预 定义 查询 的 需求 、 预 定义 查询 的 数据 结构 和 数据 内 容 , 因 此 他 们 常常 使 用 一 些 概括 
性 的 数据 。 

(2) 知识 的 挖掘 者 对 数据 仓库 的 使 用 是 不 规则 的 。 他 们 对 仓库 中 的 海量 数据 进行 控 
据 , 要 求 数据 仓库 进行 一 些 复杂 的 数据 处 理 ,这 种 使 用 主要 有 两 个 方面 : 一 方面 是 对 从 不 知 
晓 的 企业 运营 的 内 在 知识 进行 挖掘 ,希望 挖掘 出 隐 含 在 企业 数据 内 部 的 一 些 商 业 知识 一些 
商业 模式 ,为 制定 企业 的 发 展 战略 .培养 企业 的 核心 竞争 力 提供 帮助 。 另 一 方面 是 针对 企业 
过 去 的 成 功 或 失败 ,探索 成 功 或 失败 的 原因 ,使 企业 能 够 继续 保持 成 功 或 免 蹈 覆 斩 。 


8.4.2 数据 仓库 应 用 案例 


使 用 数据 仓库 的 一 般 过 程 主要 有 概况 分 析 、 数 据 抽取 、 建 模 分 析 、 分 类 处 理 和 元 数据 管 
理应 用 等 。 本 节 中 用 一 些 案例 讲解 数据 仓库 应 用 过 程 。 

【案例 8-1】 数据 挖掘 技术 在 通信 业 “ 离 网 预警 ”模型 中 的 应 用 。 

(1) 问题 的 提出 

客户 流失 是 通信 行业 普遍 面临 的 业务 问题 ,尤其 是 在 市 场 成 熟 期 ,竞争 异常 激烈 ,市 场 
渗透 比率 高 ,一 些 通信 公司 想方设法 从 竞争 对 手 处 “盗窃 ?客户 , 反 过 来 说 ,一 些 通信 公司 的 
客户 也 被 竞争 对 手 “ 盗 窃 ”。 当 被 “盗窃 ?的 客户 数字 很 高 的 时 候 就 成 为 严重 的 客户 流失 问 
题 。 通 信行 业 * 离 网 预警 "分析 是 针对 此 问题 ,建立 “ 离 网 预警 ?模型 ,产生 最 可 能 离 网 的 客户 
名 单 ,结合 每 个 客户 的 保持 价值 分 数 ,协助 通信 公司 采取 合适 的 客户 挽留 措施 ,确保 客户 忠 
诚 度 以 保持 通信 公司 收入 。 

(2) 需求 描述 及 需求 分 析 

通信 行业 * 离 网 预警 ”分 析 的 目标 是 建立 客户 “ 离 网 预警 "模型 并 且 产生 最 可 能 流失 的 客 
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户 的 名 单 ,结合 每 个 客户 的 价值 情况 及 消费 情况 ,采取 相应 的 挽留 活动 。 

通信 公司 客户 流失 分 为 主动 流失 和 被 动 流失 两 种 ,主动 流失 是 指 客户 主动 到 通信 公司 
销 号 ;被动 流 失 是 指 客户 在 一 个 周期 末 的 状态 为 在 网 ,下 个 周期 发 生 停机 并 持续 超过 5 天 ， 
通信 公司 强行 对 客户 销 号 ,其 一 般 流程 为 : 欠 费 1 个 月 一 预 销 一 再 过 1 个 月 一 销 号 。 据 统 
计 ,主动 流失 的 客户 比例 极 小 , 约 为 0.1% ,被 动 流失 的 客户 所 占 比 例 约 为 3% 。 

客户 流失 前 可 能 已 买 竞争 对 手 的 话机 ( 卡 ) 或 转 为 本 公司 低 端 品牌 。 因 此 在 进行 “ 离 网 
预警 ”分析 时 应 先 限定 模型 所 面向 的 基础 客户 群 。 例 如 ,客户 范围 限定 为 : 客户 类 型 为 非特 
殊 客户 ;和 人 网 满 三 月 的 用 户 ; 当 月 状态 为 在 网 。 确 定 了 客户 范围 后 , 紧 接 着 要 定义 客户 流失 
标志 , 若 客户 在 当前 周期 内 流失 , 则 流失 标志 置 为 1, 和 否则 为 0。 

(3) 利用 数据 挖掘 技术 建立 模型 一 一 探索 型 数据 分 析 ( 数 据 探 索 ) 

在 进行 数据 探索 前 ,要 先进 行 数据 来 源 讨 论 。 数 据 来 源 讨 论 是 对 业务 数据 的 理解 过 程 
在 此 过 程 中 搜寻 并 检查 业务 数据 ,创建 源 数据 映射 关系 描述 ,将 客户 数据 与 建 模 相关 的 各 个 
属性 对 应 起 来 。 数 据 能 被 整合 到 一 个 适当 的 程度 ,省 略 不 适当 的 记录 ,不 完整 的 数据 记录 等 
等 。 数 据 来 源 讨 论 的 任务 包括 : 数据 来 源 讨 论 、 源 数据 映射 .数据 的 初步 评 佑 。 数 据 来 源 讨 
论 要 解决 的 问题 为 : 和 通信 公司 以 及 数据 仓库 PDM 建 模 人 员 一 起 , 列 出 离 网 预警 分 析 专 题 
中 可 能 所 需 的 全 部 变量 ,对 数据 挖掘 集 市 的 PDM 进行 相应 调整 ,并 创建 源 数据 映射 关系 描 
述 , 同 时 明确 某 些 变量 的 计算 方法 (如 欠 费 天 数 、 欠 费时 长 等 ), 并 评估 源 数据 的 质量 。 在 抽 
取 了 数据 挖掘 集 市 中 包含 的 若干 基 表 (流失 基础 客户 群 表 、 客 户 基 本 资料 表 、 客 户 缴费 资料 
表 、 客 户 联络 资料 表 、 客 户 通话 资料 表 、 客 户 账单 表 ) 的 数据 后 ,可 以 确定 数据 挖掘 集 市 中 流 
失 客户 总 表 中 包含 的 变量 。 然 后 对 这 些 变量 进行 数据 分 析 。 

在 数据 分 析 过 程 中 ,常用 可 视 化 (visualization) 的 工具 或 统计 分 析 等 方法 来 展示 及 探索 
(explore) 各 个 变量 对 客户 流失 的 影响 ,如 在 探索 最 近 一 周期 主 叫 秒 数 与 近 两 个 周期 平均 主 
叫 秒 数 比 例 与 客户 流失 的 关系 时 ,可 以 做 出 图 8. 13。 
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图 8.13 最 近 一 周期 主 叫 秒 数 与 近 两 个 周期 平均 主 叫 秒 数 比 例 与 流失 的 关系 


研究 图 8. 13, 在 探讨 最 近 一 周期 主 叫 秒 数 与 近 两 个 周期 平均 主 叫 秒 数 比 例 与 客户 流失 
的 关系 时 可 以 发 现 一 个 现象 : 在 取样 的 流失 客户 中 有 约 55% 在 流失 前 的 最 近 一 周期 主 叫 秒 
数 与 近 两 个 周期 平均 主 叫 秒 数 比 例 小 于 0.15, 即 在 最 近 一 个 周期 的 消费 额 明显 比 前 两 个 月 
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下 降 了 ,并 且 在 满足 该 条 件 的 客户 群 组 中 流失 率 为 16% 左 右 , 远 远 超过 平均 客户 流失 率 
3.5%。 这 说 明 客户 在 流失 前 已 经 开始 明显 减少 了 使 用 量 。 因 此 ,要 把 此 变量 作为 客户 流失 
的 一 个 特征 并 引入 到 模型 中 。 

建 模 有 两 种 方式 ,一 种 是 直接 使 用 汇总 表 的 进行 训练 , 另 一 种 是 经 过 前 面 的 数据 探索 ， 
先 将 汇总 表 离 散 化 后 进行 训练 。 本 文采 用 第 二 种 方式 。 通 过 探索 型 数据 分 析 , 把 所 有 数据 
准备 好 之 后 ,选用 适当 的 数据 挖掘 工具 及 数据 挖掘 技术 来 建立 客户 流失 模型 。 图 8. 14 为 客 
户 离 网 预警 分 析 的 模型 训练 过 程 。 
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图 8.14 客户 离 网 预警 分 析 的 模型 训练 过 程 


图 8. 14 的 处 理 过 程 描述 如 下 : 

@ 汇总 合并 : 将 各 个 基 表 中 的 数据 汇总 合并 到 总 表 中 。 

©@ EDA: Value Analysis, Histogram, Frequency。 

@ 抽样 : 目前 一 般 抽取 周期 内 数据 的 1/3 左右 。 

@ 训练 : 训练 生成 离 网 预警 的 决策 树 。 

@ SCORING: 用 生成 的 决策 树 在 测试 集 上 进行 验证 ,评估 模型 效果 。 

接 下 来 就 可 以 应 用 数据 挖掘 工具 和 决策 树 算法 建立 客户 “ 离 网 预警 "模型 ,客户 “ 离 网 预 
警 ” 模 型 的 结果 用 决策 树 来 展示 如 图 8. 15 所 示 。 
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图 8.15 决策 树 的 客户 流失 模型 示例 


决策 树 算法 可 以 找 出 不 同 的 流失 客户 的 群 组 及 每 一 群 组 的 流失 潜在 因素 。 例 如 ,在 
图 8. 15 中 指出 某 一 个 流失 和 群 组 的 共同 特性 。 即 : 

本 状态 为 单 停 ; 

。 状态 持续 天 数 二 16; 

。 近 3 个 统计 周期 平均 账单 金额 之 150 厘 ; 

。 近 2 个 统计 周期 平均 账单 金额 乏 50 厘 ; 

。 状态 持续 天 数 二 30。 

在 这 一 个 流失 群 中 82% 的 客户 真正 流失 了 ,从 这 一 组 特征 来 看 这 一 组 客户 在 流失 前 的 
使 用 量 非常 低 , 单 停 时 间 持 续 多 天 , 仍 有 一 定 有 账单 金额 ,这 些 都 构成 了 该 客户 群体 流失 的 
因素 。 

(4) 模型 评估 

模型 评估 的 内 容 包括 模型 的 命中 率 .召回 率 和 LIFT( 利 得 率 )。 以 2004 年 4 月 的 数据 
为 例 ,2004 年 4 月 的 目标 客户 人 数 为 4 459 072 人 ,其 中 流失 人 数 为 162 375 人 , 离 网 率 为 
3. 64%。 对 客户 离 网 预警 模型 进行 评估 。 经 分 析 后 : 在 不 用 模型 的 情况 下 ,任意 给 出 客户 
名 单 ,其 命中 率 为 常数 ,等 于 离 网 率 3. 64%; 在 使 用 模型 的 情况 下 ,给 出 离 网 倾向 最 高 的 前 
50% 的 客户 名 单 , 其 命中 率 为 55.8% ,明显 高 于 不 用 模型 的 命中 率 。 在 不 用 模型 的 情况 下 ， 
对 任意 给 出 的 客户 名 单 ,其 召回 率 等 于 5% ;在 使 用 模型 的 情况 下 ,给 出 离 网 倾向 最 高 的 前 
50% 的 客户 名 单 , 其 召回 率 为 32%, 并 且 召 回 率 在 一 定 范围 内 呈 线 性 增长 ,增长 速度 明显 高 
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于 不 用 模型 时 的 结果 。 在 不 用 模型 的 情况 下 ,对 任意 给 出 的 客户 名 单 , 其 LIFT 为 常数 等 于 
1; 在 使 用 模型 的 情况 下 ,给 出 离 网 倾向 最 高 的 前 10% 的 客户 名 单 ,其 LIFT 值 在 10 以 上 , 即 
使 用 模型 所 抓 到 的 离 网 客户 数 是 不 用 模型 时 的 10 倍 以 上 。 

(5) 模型 利用 价值 

数据 挖掘 过 程 是 一 个 不 断 探索 的 过 程 ,使 用 数据 挖掘 技术 进行 通信 行业 客户 “ 离 网 预 
警 ? 分 析 , 以 决策 树 的 输出 结果 可 能 产生 多 个 客户 的 流失 和 群 组 ,其 输出 结果 中 可 包括 一 个 客 
户 流失 指数 (churn score) ,可 以 用 来 做 为 客户 流失 的 概率 ( 介 于 0 一 1 之 间 ) ,以 区 别 不 同 客 
户 间 流 失 可 能 性 的 高 低 ,如 一 个 流失 指数 为 0. 8 的 客户 比 一 个 流失 指数 为 0.6 的 客户 更 可 
能 离开 。 当 营销 部 门 欲 推行 一 客户 挽留 计划 ,可 按照 客户 流失 指数 的 高 低 对 客户 排序 , 找 出 
最 可 能 流失 的 客户 群 ,以 最 少 的 成 本 ,最 适当 的 沟通 ,达成 最 高 的 客户 挽留 效果 ,确保 客户 忠 
诚 度 , 保 持 通 信 公 司 的 收入 。 

【案例 8-2】 基于 商业 智能 的 电网 负荷 预测 新 模型 的 构建 研究 。 

(1) 问题 的 提出 

电力 营销 系统 是 一 个 要 求 时 间 效率、 利益 的 合作 型 经 济 实体 , 它 需 要 快速 准确 .能 适应 
需求 多 变 的 环境 ,具有 弹性 体系 的 决策 支持 解决 方案 。 目 前 我 国电 力 企业 的 电力 营销 决策 
支持 系统 普遍 存在 这 样 几 个 方面 的 问题 : 第 一 ,虽然 用 电量 逐年 增加 ,但 由 于 电力 消费 结构 
不 合理 ,造成 电价 结构 不 合理 现象 ,如 何 进一步 制定 增 供 促销 的 政策 .调整 电力 消费 结构 是 
目前 电力 营销 决策 支持 系统 急需 解决 的 问题 。 第 二 ,尚未 建立 以 “客户 为 中 心 ” 的 客户 服务 
系统 ,无 法 满足 向 “重要 且 敏 感 客户 ”的 供电 可 靠 性 按 个 性 化 的 要 求 有 针对 性 地 加 以 解决 。 
第 三 ,没有 形成 完善 的 客户 信息 支持 系统 ,业务 流程 不 够 通畅 ,无 法 向 用 户 提供 一 步 到 位 的 
服务 ,计量 异常 引起 的 电量 差错 较 大 ,客户 档案 不 健全 ,无 法 及 时 发 现 违章 用 电 和 窃 电 现象 ， 
造成 企业 不 必要 的 经 济 损失 。 最 后 .目前 的 电力 营销 决策 支持 系统 无 法 将 操作 型 数据 转变 
为 决策 型 数据 ,为 决策 提供 依据 。 如 何 解 决 目前 的 电力 营销 决策 支持 系统 存在 的 这 些 问题 
呢 ? 将 商业 智能 应 用 到 电力 营销 决策 支持 系统 中 是 一 个 可 供 参考 的 解决 方案 。 

(2) 基于 商业 智能 的 电力 营销 决策 支持 系统 的 设计 方案 

电力 营销 决策 支持 系统 是 以 营销 数据 中 心 为 基础 ,以 数据 仓库 技术 手段 ,为 营销 策略 的 
制定 ,市 场 运 营 与 开发 .电力 客户 信息 分 析 、 电 价 分 析 、 电 量 需 求 预 测 及 动态 等 管理 以 及 营销 
决策 提供 科学 的 依据 。 同 时 ,也 提供 灵活 的 报表 、 随 机 查询 、.OLAP 和 数据 挖掘 等 功能 , 实 
现 营销 能 力 分 析 、 营 销 效 果 分 析 、 预 测 发 展 趋势 ,并 且 辅 助 制定 营销 政策 。 

电力 营销 决策 支持 系统 的 业务 包括 : 分 析 售 电量 变化 及 其 影响 因素 ,追踪 本 地 区 特大 
客户 和 重点 行业 代表 客户 的 电量 变动 情况 ; 按 售 电 类 别 进行 售 电 均 价 变化 分 析 ( 结 构 影 响 和 
单价 影响 ) ;分 析 峰 谷 分 时 电价 执行 情况 ;分 析 欠 电费 构成 及 原因 ;分 析 市 场 现状 。 营 销 能 力 
分 析 从 电网 、 服 务 和 电价 水 平分 析 营 销 能 力 对 电力 需求 的 适应 程度 ,通过 营销 效果 评估 各 项 
营销 措施 的 执行 情况 ,产生 经 济 效益 和 社会 效益 的 定性 和 定量 分 析 , 并 根据 客户 查询 ,咨询 
业务 内 容 及 数量 的 统计 ,分 析 客 户 的 需求 及 消费 心理 ,了 解 营销 流程 的 设置 是 否 得 到 客户 
满意 。 

基于 商业 智能 的 电力 营销 决策 支持 系统 以 电力 企业 在 日 常 营销 业务 应 用 中 生成 了 大 量 
的 数据 为 基础 ,将 这 些 数据 加 上 行业 分 析 报 告 ` 独 立 的 市 场 调 查 .评测 结果 和 顾问 评估 等 外 


来 数据 将 为 企业 决策 带 来 显著 的 附加 值 。 

参照 国电 公司 营销 体系 结构 ,基于 商业 智能 的 电力 数字 营销 系统 以 市 场 和 客户 为 中 心 ， 
以 方便 客户 为 宗旨 ,以 效益 为 目的 的 设计 理念 。 通 过 该 系统 实现 与 客户 沟通 渠道 多 样 化 、 服 
务 方式 自动 化 服务 过 程 个 性 化 、 服 务 环境 网 络 化 和 服务 管理 科学 化 ,提升 和 电力 客户 的 关 
系 , 提 高 企业 的 市 场 竞 争 力 ,彻底 改变 仅 停 留 在 就 事 论 事 的 处 理 模式 的 设计 思想 。 系 统 设计 
面向 决策 支持 ,促进 电力 企业 商务 智能 ,并 充分 保护 原 有 数据 资源 和 环境 资源 ,充分 利用 现 
有 的 营销 数据 和 计算 机 网 络 硬件 资源 ,根据 设计 目标 ,合理 设计 并 利用 网 络 结构 ,确保 满足 
资源 提升 和 共享 的 需求 。 图 8. 16 为 基于 商业 智能 的 电力 营销 决策 支持 系统 的 体系 结构 。 


以 数据 挖掘 和 数据 

仓库 为 基础 的 决策 
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国电 公司 营销 体系 结构 基于 商业 智能 的 电力 营销 决策 支持 系统 
图 8.16 基于 商业 智能 的 电力 营销 决策 支持 系统 的 体系 结构 


客户 服务 层 是 电力 营销 系统 的 窗口 ,通过 呼叫 中 心 把 多 种 服务 手段 如 综合 服务 热线 、 营 
业 厅 、 因 特 网 (Internet) 和 客户 现场 等 融合 在 一 起 ,与 客户 进行 沟通 并 为 其 提供 电力 法 规 、 用 
电 政 策 、 用 电 常 识 、 用 电 技 术 以 及 用 电 情 况 等 信息 查询 和 咨询 服务 ,收集 客户 的 电力 需求 信 
息 , 并 实时 受理 客户 通过 各 种 方式 提交 的 新 装 、 增 容 与 用 电 变 更 、 紧 急 服 务 以 及 投诉 举报 等 
业务 。 客 户 服务 层 将 为 客户 提供 高 效 、 便 捷 和 优质 的 服务 ,树立 电力 企业 的 良好 服务 形象 ， 
为 电力 企业 记得 市 场 竞 争 优 势 。 

本 系统 将 构建 一 个 基于 各 种 通讯 手段 ,能够 实时 与 顾客 沟通 的 环境 ,使 客户 能 够 在 与 企 
业 商 务 网 站 实时 交互 ,并 在 现场 营业 厅 与 呼叫 中 心 代理 进行 语音 交谈 。 用 户 对 企业 网 站 由 
过 去 的 被 动 式 的 浏览 变 成 由 呼叫 中 心 代理 去 引导 顾客 分 享 信息 提供 专家 建议 .完成 间接 销 
售 等 ,另外 能 够 利用 强大 的 多 媒体 工具 提供 在 线 技术 支持 广告 宣传 .娱乐 等 网 络 增值 服务 。 

基于 商业 智能 的 电力 营销 决策 支持 系统 的 客户 服务 层 设计 基本 架构 包括 : 公 网 接 人 设 
备 Meridian Options 系列 排队 机 (PBX) ;CTI 中 间 件 ;语音 自动 应 等 /传真 服务 器 (IVR); 
话 务 分 配 与 排队 (ACD); 电 力 客户 关系 管理 系统 ;电力 呼叫 中 心 管理 系统 ;数字 录音 设备 
等 。 其 中 ,CTI 是 整个 系统 的 核心 , 它 负责 汇集 并 整理 客户 联系 信息 ,协调 客户 服务 中 心 的 
各 个 应 用 ,管理 并 监视 呼叫 队列 ,快速 安排 客户 服务 工作 人 员 回 答 客户 请 求 , 它 还 将 完成 客 
户 请 求 的 所 需要 的 所 有 信息 提交 给 工作 席 的 功能 。 

客户 服务 支持 层 建立 在 客户 服务 层 之 上 ,是 承上启下 的 一 层 , 它 负责 对 客户 服务 层 获取 
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的 业务 信息 和 客户 需求 信息 进行 处 理 ,如 新 装 、 增 容 与 用 电 变 更 处 理 ,合同 管理 ,电量 电费 、 
收费 与 账 务 管理 ,电能 计量 管理 以 及 负荷 管理 等 业务 和 流程 ;并 将 处 理 结果 反馈 给 客户 服务 
层 ;对 业务 工作 质量 和 工作 流程 进行 监督 .管理 和 评估 ,并 及 时 将 有 关 信 息 反馈 给 决策 管理 
系统 层 。 

客户 服务 支持 层 将 营销 业务 信息 流 按照 标准 化 、 规 范 化 .科学 化 的 管理 原则 ,对 电力 营 
销 业 务实 现 快捷 .准确 的 处 理 , 同 时 通过 对 营销 业务 和 客户 服务 层 的 业务 处 理 标准 .业务 处 
理 时 限 客户 服务 的 监控 等 特定 指标 的 考核 进行 职能 管理 ,及 时 发 现 问题 ,迅速 了 予以 反映 , 督 
促 有 关 部 门 加 以 纠正 。 

客户 服务 支持 层 设计 过 程 中 首先 需 制 定 并 规范 电力 各 类 业务 范围 .引用 标准 、 管 理 内 容 
和 方法 、 业 务 流程 及 业务 和 管理 报表 等 。 其 次 需 定义 客户 服务 支持 中 的 工作 流 管理 功能 ,该 
功能 专 为 管理 ,协调 ,监控 各 部 门 间 协 同 工 作 而 设计 的 ,工作 流 管理 服务 器 可 保证 任务 按 事 
先 设计 好 的 方案 快速 将 信息 传递 给 指定 的 负责 人 ,图 形 化 的 定制 可 保证 工作 流 可 以 方便 、 灵 
活 维 护 , 权 限 管理 可 保证 各 级 使 用 人 员 能 够 随时 随地 了 解 自 己 的 任务 并 做 出 快速 反馈 ,工作 
流 管理 监控 可 让 领导 随时 了 解 各 节点 的 工作 情况 并 可 及 时 做 出 调整 和 调度 。 青 次 需 定义 客 
户 服务 支持 的 服务 形式 和 服务 功能 ,主要 包括 柜台 服务 、 多 媒体 查询 .语音 服务 等 ,柜台 服务 
由 营业 厅 工 作 人 员 通 过 电力 数字 营销 管理 信息 系统 ,受理 客户 新 装 、 增 容 与 变更 用 电 、 缴 费 、 
签订 供用 电 合 同 .查询 及 咨询 等 业务 , 按 预 定 进度 或 按 客户 的 合理 需求 进度 对 内 部 闭环 工作 
流程 完成 情况 进行 跟踪 、 催 办 ,受理 后 的 业务 信息 和 数据 直接 通过 业务 流程 进入 数据 库 系 
统 ; 多 媒体 查询 通过 触摸 屏 等 多 媒体 设备 为 客户 提供 信息 查询 服务 ;语音 服务 集成 了 先进 的 
计算 机 技术 ,通信 和 技术、 网络 技术 、 因 特 网 技术 、 数 据 仓库 技术 . 它 通过 电话 ,传真 .因特网 等 
多 种 形式 为 客户 提供 服务 ,对 收集 到 的 客户 需求 信息 可 自动 生成 工作 单 ,通过 流程 传递 给 营 
销 业 务 层 应 用 系统 或 其 他 业务 部 门 进行 处 理 。 

决策 支持 层 通过 对 客户 服务 层 、 客 户 服务 支持 层 等 信息 流 的 应 用 和 分 析 ,提供 诸如 市 场 
运营 与 开发 .客户 需求 信息 ,市场 预测 及 动态 研究 等 辅助 决策 信息 ,以 提供 管理 依据 和 决策 
支持 ,再 将 决策 信息 下 达 给 客户 服务 支持 层 和 客户 服务 层 。 

决策 支持 层 的 建设 以 数据 挖掘 和 数据 仓库 技术 为 基础 。 数 据 仓 库 是 一 个 面向 主题 的 
(subject-oriented) ,稳定 的 (non-volatile) ,与 时 间 相关 的 (time-variant) ,集成 的 (integrated) .能够 
更 好 地 支持 企业 或 组 织 的 决策 分 析 处 理 的 环境 中 。 数 据 仓 库 的 成 功 建立 会 给 企业 或 组 织带 
来 巨大 的 经 济 利 益 。 基 于 商业 智能 的 电力 营销 决策 支持 系统 采用 支持 OLAP 分 析 的 数据 
库 引 擎 技术 ,其 中 基于 关系 型 数据 库 的 OLAP 分 析 技 术 主要 采用 在 关系 型 数据 库 上 的 一 些 
特殊 优化 措施 如 : 索引 优化 、 存 储 方式 优化 等 ,针对 于 具有 高 度 灵活 分 析 范 围 的 OLAP 分 
析 ,而 基于 多 维 数据 库 的 OLAP 分 析 技 术 主 要 采用 以 多 维 数据 库 为 核心 ,其 服务 器 包含 一 
个 巨大 的 预定 义 的 超级 立方 体 ,MOLAP 技术 为 各 个 用 户 群 提供 了 具有 明确 分 析 范 围 的 高 
性 能 方案 ,同时 也 为 那些 经 常 有 特殊 要 求 的 用 户 提 供 方 案 。 

(3) 基于 商业 智能 的 电力 营销 决策 支持 系统 的 实施 

根据 实施 基于 商业 智能 的 电力 营销 决策 支持 系统 的 经 验 ,数据 仓库 的 容量 和 用 户 会 在 
投产 后 迅速 增加 ,在 应 用 过 程 中 尚 需 进 行 支持 与 完善 工作 ,内 容 包括 : 企业 系统 支持 、 数 据 
仓库 逻辑 模型 回顾 数据 仓库 调试 .容量 规划 数据 仓库 审计 等 过 程 吕 。 
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决策 支持 系统 用 户 存在 着 多 种 需求 : 自主 查询 .报表 .OLAP 分 析 、 数 据 挖 掘 等 ,实际 上 
大 约 20% 需 要 自主 查询 .20% 需 要 创建 报表 、10% 需 要 OLAP 分 析 和 数据 挖掘 、50% 需 要 阅 
读 报表 ,数据 仓库 的 建立 也 是 一 个 长 期 复杂 的 过 程 ,需要 不 断 循环 反馈 从 而 不 断 增 长 完善 ， 
建议 以 两 个 阶段 来 逐步 实施 该 系统 ,第 一 阶段 是 自主 查询 .灵活 报表 、 泛 化 的 OLAP 分 析 ， 
第 二 阶段 基于 某 一 主题 ,进行 深层 次 的 OLAP 分 析 和 数据 挖掘 。 

(4) 应 用 价值 

基于 商业 智能 的 电力 营销 决策 支持 系统 通过 向 用 户 提 供 灵活 报表 、 随 机 查询 .OLAP 
(在 线 分 析 处 理 ) 和 数据 挖掘 的 功能 ,最 终 帮 助 用 户 从 数据 中 发 现 规律 ,预测 发 展 趋势 ,并 且 
辅助 用 户 做 出 正确 的 决策 ,指导 组 织 的 发 展 方向 。 其 在 功能 上 完全 独立 于 电力 营销 信息 系 
统 (MIS) 或 任何 业务 系统 ,但 其 决策 行为 又 必须 依赖 于 电力 营销 信息 库 或 管理 信息 系统 采 
集 的 数据 ,而 在 实际 使 用 中 ,该 系统 可 以 说 是 电力 营销 管理 信息 系统 的 延伸 ,弥补 了 管理 信 
息 系 统 及 传统 决策 支持 系统 的 功能 不 足 。 该 系统 的 使 用 提高 了 电力 企业 的 竞争 力 ,满足 电 
力 营销 手段 和 营销 理念 相 适 应 的 要 求 ,提高 营销 工作 管理 水 平 ,促进 营销 管理 工作 的 规范 化 
和 科学 化 ,实现 了 "满足 客户 需求 ,一 次 就 做 好 ?的 电力 营销 理念 。 

【案例 8-3】 元 数据 管理 应 用 。 

(1) 问题 的 提出 

随 着 电力 企业 数据 仓库 技术 应 用 的 不 断 成 熟 , 企 业 的 数据 逐渐 变 成 了 决策 的 主要 依据 。 
电力 数据 仓库 中 的 数据 从 多 个 业务 处 理 系统 中 抽取 、 转 换 而 来 , 面 对 这 种 复杂 的 企业 数据 环 
境 , 目 前 电力 系统 中 大 部 分 元 数据 管理 方案 提供 的 仅 是 对 特定 的 局 部 元 数据 的 管理 ,缺少 对 
元 数据 管理 的 完整 方案 。 这 使 得 数据 仓库 在 对 数据 进行 管理 和 访问 方面 产生 了 一 系列 问 
题 : 首先 目前 电力 各 个 业务 系统 中 的 数据 是 相互 独立 的 ,这 易 产 生 数据 不 一 致 和 信息 孤岛 
问题 ;其 次 业务 系统 中 的 原始 数据 一 般 是 用 以 处 理 具体 的 日 常事 务 ,无 法 支持 企业 决策 者 决 
策 需要 ,决策 者 需要 的 信息 经 常 要 通过 查找 业务 数据 元 素 之 间 的 内 在 关联 获取 ,这 影响 了 决 
策 效率 ;第 三 ,由 于 电力 数据 仓库 数据 庞大 ,建立 数据 仓库 时 一 般 是 先 建 数据 集 市 ,再 在 各 个 
数据 集 市 的 基础 上 建设 数据 仓库 , 当 数 据 集 市 数量 增多 时 容易 形成 “蜘蛛 网 ?现象 ,这 影响 数 
据 仓 库 数 据 访问 的 效率 。 解 决 这 些 问题 的 关键 是 构建 一 个 完整 数据 仓库 元 数据 仓储 ,对 数 
据 进行 科学 有 效 的 管理 。 

本 方案 通过 研究 基于 CWM 标准 模型 ,能够 对 数据 仓库 数据 进行 完整 管理 的 元 数据 仓 
储 的 构建 ,实现 电力 业务 模型 与 数据 模型 之 间 的 映射 ,把 数据 以 用 户 需 要 的 方式 “翻译 ”出 
来 ,方便 用 户 理解 数据 仓库 中 数据 ;方便 用 户 得 到 各 个 数据 的 抽取 和 转换 的 规则 ,保证 数据 
管理 与 访问 的 效率 及 数据 质量 ;并 通过 对 电力 系统 业务 的 工作 流 、 数 据 流 和 信息 流 有 效 管 
理 , 提 高 系统 的 可 扩展 性 。 

(2) 元 数据 管理 的 标准 化 

目前 电力 数据 仓库 元 数据 仓储 仅 能 对 特定 的 局 部 元 数据 进行 管理 ,而 无 法 提供 元 数据 
完整 管理 方案 是 因 其 缺乏 一 个 统一 的 标准 。OMG 的 CWM 标准 是 目前 数据 仓库 领域 中 主 
要 的 元 数据 管理 标准 模型 。OMG 是 国际 标准 化 组 织 , 其 提出 的 公共 仓库 元 模型 主要 目的 
是 在 异 构 环境 下 ,帮助 不 同 数据 仓库 工具 平台 和 元 数据 知识 库 进行 元 数据 交换 。CWM 模 
型 既 包 括 元 数据 存储 ,也 包括 元 数据 交换 。 

。 220 。 


(3) 基于 CWM 标准 的 电力 数据 仓库 元 数据 仓储 开发 

为 了 设计 出 通用 的 、 完 整 的 电力 企业 数据 仓库 元 数据 仓储 ,其 体系 架构 可 参考 CWM 元 
模型 的 包 结 构 ,CWM 元 模型 的 包 结构 如 图 8. 17 所 示 。 可 将 电力 企业 数据 仓库 元 数据 仓储 
分 为 元 对 象 模型 包 .基础 包 ,资源 包 、 分 析 包 、 管 理 包 等 5 个 部 分 构建 。 


管理 仓库 过 程 | 仓库 操作 
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UML1.3 
对 象 模型 (基础 ,行为 元 素 .模型 管理 ) 


图 8.17 CWM 元 模型 的 包 结构 


元 模型 包 是 构造 和 描述 其 他 包 中 的 元 模型 类 的 基础 。 它 应 包含 电力 企业 最 基础 的 数据 
及 其 关联 ,其 他 所 有 的 包 都 以 它 为 基础 。 通 过 调研 分 析 , 可 得 到 电力 企业 数据 仓库 元 对 象 模 
型 包含 的 数据 有 人 员 ( 包 括 在 职 人 员 、 调 离 人 员 , 离 退 人 员 、 人 员工 资 ) 部门, 岗位 .电力 战略 
计划 电力 项 目 、 安 全 事故 (包括 电网 事故 ,设备 事故 .人 身 事故 ) .电力 资金 (包括 收入 资金 、 
支出 资金 ) .电力 设备 (包括 发 电 设备 、 变 电 设备 、 配 电 设 备 )、 电 量 ( 包 括 发 电量 、 购 电量 .输电 
量 )、 电 网 (包括 内 电网 、 外 电网 ) .电厂 (包括 水 电厂 、 火 电厂 、 地 方 电厂 )、 变 电站 及 用 电 客 户 
等 数据 。 将 这 些 数据 关联 起 来 即 可 得 到 电力 企业 元 对 象 模 型 包 。 

基础 包 主 要 用 来 表示 电力 企业 模型 业务 信息 的 类 与 关联 。 经 过 对 电力 企业 原 信息 系统 
分 析 及 调查 ,笔者 构建 元 数据 仓储 基础 包 时 将 其 分 为 电力 营销 包 、 电 力 财 务 包 、 电 网 运行 包 、 
计划 包 、 人 资 包 、 物 流 包 等 。 其 各 个 包 包 含 的 业务 信息 如 表 8-2 所 示 。 


表 8-2 电力 基础 包 中 包含 的 业务 信息 


包 名 业务 信息 
营业 用 户 分 析 、 电 价 电 费 分 析 、 营 业 费 用 分 析 、 电 费 回收 分 析 、 容 量变 化 分 析 、 业 扩 流 程 分 
电力 营销 包 | 析 、 抄 表情 况 分 析 、 月 末 抄 表 比 重 分 析 、 电 费 异常 (差错 ) 分 析 、 违 约 用 电 分 析 、 窃 电 分 析 、 停 
电 分 析 、 能 源 替 代 潜 在 市 场 分 析 等 
电力 财务 包 工程 进度 分 析 、 利 润 构成 情况 分 析 、 资 金 分 析 、 成 本 分 析 、 预 算 核算 走势 分 析 、 电 力 营 销 收 
入 分 析 、 财 务 资产 负债 分 析 等 
电网 运行 包 电厂 发 电 供电 情况 分 析 、 可 靠 性 分 析 、 线 路 检修 分 析 、 线 路 跳 曾 分 析 、 电 网 负荷 分 析 、 购 电 
工 ” | 情况 分 析 、 事 故 情况 分 析 、 设 备 事故 分 析 、 设 备 缺 陷 分 析 、 设 备 异 动 分 析 、 安 全 整改 分 析 等 
规划 执行 率 分 析 、 计 划 执 行 率 分 析 、 电 网 建设 分 析 、 用 电 测 算 分 析 、 售 电信 息 分 析 、 生 产 计 
计划 包 划 完 成 情况 分 析 、 计 划 指 标 统计 图 表 分 析 工程 进度 分 析 、 计 划 和 预算 完成 情况 分 析 、 预 算 
核算 走势 分 析 、 项 目 资金 到 位 完成 情况 分 析 、 预 测 分 析 ,物资 需求 分 布 分 析 等 
人 资 包 岗位 .学 历 .年 龄 .政治 面貌 、 专 业 职 务 、 技 术 职 称 等 情况 分 析 、 统 筹 基金 分 析 、 账 户 划 入 分 
析 、 单 位 缴费 分 析 、 劳 动工 资 情 况 分 析 等 
物流 包 物资 收入 量 经 济 分 析 、 材 料 物资 的 消费 量 ( 设 备 物资 使 用 量 ) 经 济 分 析 、 物 资 库 存量 经 济 分 


析 、 超 时 限 分 析 , 市 场 信息 分 析 、 工 程 预算 经 济 分 析 等 
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资源 包 中 主要 包括 数据 仓库 多 维 数据 资源 的 元 数据 的 类 与 关联 。 维 度 建 模 的 目的 是 在 
为 用 户 提供 一 组 全 局 数据 视图 的 基础 上 进行 某 一 主题 的 业务 分 析 。 因 为 在 数据 仓库 的 维度 
建 模 技术 中 ,主要 从 用 户 需 求 范围 出 发 ,考虑 指标 和 维度 及 其 各 种 主题 下 的 分 析 参 数 。 例 如 
根据 电力 行业 发 电 供电 情 况 分 析 , 其 指标 和 维度 及 其 各 种 主题 下 的 分 析 参 数 可 综合 为 各 电 
厂 相 应 时 间 段 的 发 电量 为 多 少 ? 各 电厂 相应 时 间 段 的 售 电 量 为 多 少 ? 各 地 区 相应 时 间 段 的 
发 电量 为 多 少 ? 各 地 区 相应 时 间 段 的 售 电 量 为 多 少 ? 各 地 区 相应 时 间 段 的 地 区 利率 为 多 
少 ? 各 地 区 相应 时 间 段 的 地 区 最 高 负荷 .最 低 负 荷 分 别 为 多 少 ? 电力 企业 相应 时 间 段 的 全 
网 供电 量 为 多 少 ?电力 企业 相应 时 间 段 的 网 损 率 为 多 少 ? 电力 企业 相应 时 间 段 的 网 供 最 高 
负荷 .最 低 负荷 分 别 为 多 少 ? 根据 以 上 问题 的 关联 维度 ,形成 电力 企业 供电 情况 分 析 多 维 数 
据 资 源 模 型 ,如 图 8. 18 所 示 。 


<< 事 实 表 >> 
厂 站 << 事 实 表 >> 
| 发 电量 
<<KEY>> 厂 站 编码 
< 厂 站 名 称 <<KEY>> 日 期 
建 厂 时 间 <<KEY>> 时 间 
厂 熙 美和 KEY 投资 形式 <<KEY>> 厂 站 编码 “> 
水 电厂 “ 
地 方 电厂 厂 站 属性 最 大 出 力 和 是 
所 属地 区 最 小 出 力 季 
a | 装机 容量 可 调 时 间 月 
<< 维 表 >> A " a 
装机 容量 
要 机 容量 KEY | Ll 
中 分 E>> 
二 到 和 人 Te << 事 实 表 >> << 维 表 >> 
小 型 电厂 线路 时 间 
未 知 SRE 线路 编码 <<KEY>> 线路 编码 时 间 KEY 
所 民 户 让 友 四 外 于 
下 属 ， 六 独 全 所 属 母 线 编码 半点 
运行 时 间 线路 名 称 5 分 钟 
, 电压 等 级 S 侧 厂 站 编码 分 钟 
<< 维 表 >> ! E 侧 | 站 编码 
地 区 运行 时 间 
供电 区 域 KEY 
供电 区 域 1 J 
供电 区 域 2 << 维 表 >> 
电压 等 级 “|1 和 
电压 等 级 KEY | 网 损 类 型 | 
500KV 网 损 类 型 KEY 
220KV 主 网 网 损 
380KV 500KV 网 损 
6KV 220KV 网 损 
10KV 
35KV 
110KV 
图 8.18 电力 企业 供电 情况 分 析 多 维 数据 资源 模型 


分 析 包 中 包括 表示 数据 抽取 和 转换 工具 的 元 数据 类 与 关联 ,及 表示 OLAP 工具 的 元 数 
据 类 与 关联 。 表 示 数 据 抽取 和 转换 工具 的 元 数据 类 与 关联 主要 解决 数据 进入 数据 仓库 的 入 


口 一 致 性 问题 ,数据 仓库 需要 通过 抽取 过 程 将 数据 从 联机 事务 处 理 系 统 、 外 部 数据 源 、 脱 机 
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的 数据 存储 介质 中 导入 到 数据 仓库 ,不 同业 务 系统 数据 经 过 该 模型 统一 转换 清洗 后 进入 数 
据 仓 库 。 表 示 OLAP 工具 的 元 数据 模型 主要 支持 多 维 分 析 的 查询 模式 ,其 主要 解决 用 户 在 
使 用 数据 仓库 时 的 访问 方式 与 效率 问题 ,对 于 数据 仓库 的 访问 不 是 简单 的 表 和 记录 的 查询 ， 
而 是 基于 用 户 业 务 的 分 析 模式 , 即 OLAP,OLAP 的 特点 是 将 数据 想象 成 多 维 的 立方 体 , 用 
户 的 查询 便 相 当 于 在 其 中 的 部 分 维 上 施加 条 件 , 对 立方 体 进行 切片 分割, 得 到 的 结果 则 是 
数值 的 矩阵 或 向 量 , 并 将 其 制 成 图 表 或 输入 数理 统计 的 算法 。 

管理 包 用 于 描述 数据 仓库 管理 , 它 包 括 表 示 仓 库 过 程 的 元 数据 的 类 与 关联 ,及 表示 仓库 
操作 结果 的 元 数据 的 类 与 关联 。 该 包 内 部 以 一 种 “快照 ”的 数据 结构 组 织 数 据 , “快照 "是 当 
某 一 条 件 触 发 时 ,立即 创建 记录 捕获 一 些 信息 。 “快照? 有 两 种 类 型 ,一 种 是 因为 一 些 事件 触 
发 的 , 称 为 “事件 /快照 ”; 另 一 种 快照 触发 器 是 时 间 , 这 是 一 种 可 预期 的 触发 器 , 它 触发 快照 
的 业务 事件 是 规律 性 的 时 间 推 移 标志 , 称 为 “时 间 / 快 照 ”。 快 照 元 数据 结构 中 一 般 包 括 关 键 
字 ,快照 产生 的 时 间 、 与 关键 字 相 关 的 主要 数据 等 。 

(4) 应 用 价值 

基于 CWM 标准 的 电力 数据 仓库 元 数据 仓储 的 开发 方案 的 应 用 可 减少 电力 企业 建设 数 
据 仓 库 的 时 间 、 成 本 和 工作 量 。 通 过 该 元 数据 仓储 可 实现 在 一 个 单一 的 环境 来 实施 和 管理 
复杂 的 数据 仓库 系统 ,可 保证 数据 仓库 数据 在 不 同 数据 源 ,不 同类 型 数据 转换 方法 情况 下 对 
转换 过 程 进 行 记录 ,强化 定义 的 商业 规则 ,从 而 提高 数据 仓库 数据 管理 与 访问 的 效率 ,提高 
电力 企业 领导 决策 效率 ,保证 了 数据 仓库 应 用 时 的 可 扩展 性 。 

【案例 8-4】 客户 关系 管理 。 

(1) 维护 客户 基础 

必须 避免 那些 重要 客户 的 流失 ,不断 进行 客户 的 细 分 工作 ,发 现 谁 是 最 好 的 客户 , 谁 是 
最 好 的 潜在 客户 ,能 够 发 现 竞争 对 手 在 哪些 地 区 很 活跃 ,在 哪些 层次 上 很 敏感 ,帮助 制定 非 
常 成 功 的 客户 保留 计划 ,针对 客户 的 具体 情况 提供 新 的 服务 协议 来 赢 回 客户 。 

(2) 管理 的 收益 

一 对 一 销售 的 市 场 营销 理念 ,迅速 准确 地 预期 客户 需求 ,提高 盈利 能 力 , 统 一 的 数据 仓 
库 可 以 将 客户 服务 系统 和 CRM 进行 有 机 集成 ,为 客户 提供 多 层次 个 性 化 ,多样 化 的 服务 ， 
保持 现 有 的 客户 ,发现 潜在 客户 ,对 已 积累 的 客户 信息 ,进行 深度 分 析 挖 气 ,产生 客户 分 类 模 
式 及 行为 模式 。 

(3) 企业 的 营销 策略 管理 

现 有 的 客户 可 能 会 带 来 取得 新 的 收益 机 会 ,利用 交叉 销售 或 提升 销售 可 以 使 企业 获得 
销售 的 增长 。 通 常 企业 的 业务 处 理 数据 是 一 种 特定 的 信息 源 , 一 般 仅 适用 于 本 企业 。 如 果 
将 业务 处 理 数 据 与 统计 数据 结合 ,可 以 产生 一 个 特定 的 信息 库 , 利 用 它 可 以 更 好 地 了 解 客 
户 ,例如 客户 的 购买 方式 .产品 包装 、 服 务 需 求 等 方面 。 具 有 这 些 源 于 数据 仓库 的 经 验 后 ,可 
以 制定 能 带 来 大 量 利润 或 吸引 顾客 的 市 场 营 销 策略 。 

(4) 改变 竞争 的 基础 

从 数据 仓库 中 的 历史 数据 中 收集 关于 客户 的 知识 ,并 通过 对 实际 运行 结果 的 快速 反馈 
而 加 强 这 些 客户 知识 。 这 些 知识 可 能 会 造就 一 种 可 行 的 、 更 快 和 更 新 的 业务 运营 方式 ,以 便 
更 精确 、 更 全 面 地 满足 顾客 的 需要 。 例 如 ,市 场 定位 系统 可 以 将 更 适当 的 产品 、 合 适 的 特征 ， 
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在 恰当 时 间 推 出 ,这 将 使 客户 更 加 满意 ,从 而 改变 企业 的 竞争 基础 。 
8.4.3 数据 仓库 的 运行 技术 管理 
1. 数据 加 载 技术 


如 何 定期 向 数据 仓库 追加 数据 是 一 个 十 分 重要 的 技术 。 数 据 仓库 的 数据 是 来 自 OLTP 
的 数据 库 中 ,问题 是 如 何 知 道 究 竞 哪些 数据 是 在 上 一 次 追加 过 程 之 后 新 生成 的 。 常 用 的 技 
术 和 方法 有 : 

(1) 时 标 方法 : 如 果 数 据 含 有 时 标 ,对 新 插入 或 更 新 的 数据 记录 ,在 记录 中 加 更 新 时 的 
时 标 ,那么 只 需 根据 时 标 判 断 即 可 。 但 并 非 所 有 的 数据 库 中 的 数据 都 含有 时 标 。 

(2) DELTA 文件 : 它 是 由 应 用 生成 的 ,记录 了 应 用 所 改变 的 所 有 内 容 。 利 用 DELTA 
文件 效率 很 高 , 它 避 兔 了 扫描 整个 数据 库 ,但 同样 的 问题 是 生成 DELTA 文件 的 应 用 并 不 普 
遍 。 此 外 ,还 有 更 改 应 用 代码 的 方法 ,使 得 应 用 在 生成 新 数据 时 可 以 自动 将 其 记录 下 来 。 但 
应 用 成 千 上 万 , 且 修改 代码 十 分 繁琐 ,这 种 方法 很 难 实现 。 

(3) 前 后 映像 文件 的 方法 : 在 抽取 数据 前 后 对 数据 库 各 作 一 次 快照 ,然后 比较 两 幅 快 
照 的 不 同 从 而 确定 新 数据 。 它 占用 大 量 资源 ,对 性 能 影响 极 大 ,因此 并 无 多 大 实际 意义 。 

(4) 日 志文 件 : 最 可 取 的 技术 大 概 是 利用 日 志文 件 了 ,因为 它 是 DB 的 固有 机 制 ,不 会 
影响 OLTP 的 性 能 。 同 时 , 它 还 具有 DELTA 文件 的 优越 性 质 ,提取 数据 只 要 局 限 日 志文 
件 即 可 ,不 用 扫描 整个 数据 库 。 当 然 ,原来 日 志文 件 的 格式 是 依据 DB 系统 的 要 求 而 确定 
的 , 它 包 含 的 数据 对 于 数据 仓库 而 言 可 能 有 许多 宛 余 。 例 如 ,对 一 个 记录 的 多 次 更 新 ,日 志 
文件 将 全 部 变化 过 程 都 记录 下 来 ;而 对 于 数据 仓库 ,只 需要 最 终结 果 。 但 比较 而 言 , 日 志文 
件 仍然 是 最 可 行 的 一 种 选择 。 


2. 故障 恢复 管理 


在 故障 恢复 管理 中 可 以 采用 这 样 一 些 步骤 。 

(1) 停止 包括 操作 系统 (OS) 在 内 的 服务 器 。 

(2) 重新 安装 和 重新 配置 操作 系统 。 

(3) 重新 标定 驱动 器 。 

(4) 重新 安装 和 重新 配置 关系 数据 库 系统 ,监控 程序 和 中 间 件 。 
(5) 对 数据 重新 加 载 和 重新 索引 。 


3. 访问 控制 与 安全 管理 


数据 仓库 主要 用 于 公开 收集 企业 的 数据 。 将 这 些 数据 用 于 决策 支持 ,可 以 帮助 分 析 者 

和 操作 人 员 改 善 操作 ,获取 企业 战略 上 的 和 持久 的 竞争 优势 。 但 是 数据 仓库 的 安全 性 控制 

则 要 求 限制 数据 运行 的 公开 化 。 这 就 形成 了 一 对 鲜明 的 矛盾 。 在 数据 仓库 的 操作 中 ,用 户 

按照 不 同 的 概括 度 访问 数据 仓库 内 的 数据 。 某 一 用 户 可 以 从 高 度 概括 的 数据 入 手 , 然 后 不 

断 “ 细 剖 ” 详 细 的 数据 。 而 其 他 用 户 则 可 以 在 男 一 概括 度 上 进行 操作 。 这 样 在 安全 控制 上 很 

难 管理 每 一 用 户 对 数据 表 的 访问 。 大 多 数 用 户 通 过 “知识 发 现 过 程 ”来 使 用 数据 仓库 。 由 于 
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用 户 需 进行 深入 的 探索 ,安全 控制 就 与 这 一 过 程 发 生 了 矛盾。 安全 性 必须 对 细 剖 能 力 进行 限 
制 , 并 对 特定 的 概括 数据 表 和 运作 的 详细 内 容 提 供 访问 控制 ,并 且 还 需要 限制 对 数据 源 的 使 
用 ,如 创建 临时 表 和 即席 查询 等 。 一些 不 怀 好 意 的 用 户 可 能 会 使 大 量 的 资源 处 于 停顿 状态 ， 
从 而 使 数据 仓库 无 法 使 用 。 


4. 数据 的 存储 和 管理 


数据 的 存储 和 管理 是 数据 仓库 的 一 个 关键 技术 。 数 据 仓 库 的 组 织 管理 方式 决定 了 它 有 
别 于 传统 数据 库 的 特性 ,同时 也 决定 了 其 对 外 部 数据 表现 形式 。 要 决定 采用 什么 产品 和 技 
术 来 建立 数据 仓库 核心 , 则 需要 从 数据 仓库 的 技术 特点 着 手 分 析 。 数 据 储存 和 管理 中 会 遇 
到 以 下 问题 。 

数据 仓库 遇 到 的 第 一 个 问题 是 对 大 量 数据 的 存储 和 管理 。 这 里 所 涉及 的 数据 量 比 传统 
事务 处 理 大 得 多 , 且 随 时 间 的 推移 而 累积 。 从 现 有 技术 和 产品 来 看 ,只 有 关系 数据 库 系统 能 
够 担当 此 任 。 关 系数 据 库 经 过 近 三 十 年 的 发 展 ,在 数据 存储 和 管理 方面 已 经 非常 成 熟 , 非 其 
他 数据 管理 系统 可 比 。 目 前 不 少 关系 数据 库 系统 已 支持 数据 分 割 技术 ,能 够 将 一 个 大 的 数 
据 库 表 分 散在 多 个 物理 存储 设备 中 ,进一步 增强 了 系统 管理 大 数据 量 的 扩展 能 力 。 采 用 关 
系数 据 库 管理 数 百 吉 字 节 甚 至 到 太 字 节 的 数据 已 是 一 件 平常 的 事情 。 

数据 仓库 要 解决 的 第 二 个 问题 是 并 行 处 理 。 在 传统 联机 事务 处 理应 用 中 ,用 户 访问 系 
统 的 特点 是 短小 而 密集 ;对 于 一 个 多 处 理 机 系统 来 说 ,能 够 将 用 户 的 请 求 进行 均衡 分 担 是 关 
键 , 这 便 是 并 发 操作 。 而 在 数据 仓库 系统 中 ,用 户 访 问 系统 的 特点 是 庞大 而 稀疏 ,每 一 个 查 
询 和 统计 都 很 复杂 ,但 访问 的 频率 并 不 是 很 高 。 此 时 系统 需要 有 能 力 将 所 有 的 处 理 机 调动 
起 来 为 这 一 个 复杂 的 查询 请 求 服务 ,将 该 请 求 并 行 处 理 。 目 前 ,关系 数据 库 系统 在 并 行 处 理 
方面 已 能 做 到 对 查询 语句 的 分 解 并 行 、 基 于 数据 分 割 的 并 行 以 及 支持 跨 平 台 多 处 理 机 的 群 
集 环境 ,能 够 支持 多 达 上 百 个 处 理 机 的 硬件 系统 并 保持 性 能 的 扩展 能 力 。 

数据 仓库 要 解决 的 第 三 个 问题 是 针对 决策 支持 查询 的 优化 。 这 个 问题 主要 针对 关系 数 
据 库 而 言 ,因为 其 他 数据 管理 环境 连 基本 的 通用 查询 能 力 都 还 不 完善 。 在 技术 上 ,针对 决策 
支持 的 优化 涉及 数据 库 系统 的 索引 机 制 .查询 优化 器 .连接 策略 ,数据 排序 和 采样 等 诸多 部 
分 。 普 通关 系数 据 库 采 用 B 树 类 的 索引 ,对 于 性 别 \ 年 龄 .地 区 等 具有 大 量 重复 值 的 字段 几 
乎 没有 效果 。 而 扩充 的 关系 数据 库 则 引入 了 位 图 索引 的 机 制 ,以 二 进 制 位 表示 字段 的 状态 ， 
将 查询 过 程 变 为 筛选 过 程 ,单个 计算 机 的 基本 操作 便 可 筛选 多 条 记录 。 由 于 数据 仓库 中 各 
数据 表 的 数据 量 往往 极 不 均匀 ,普通 查询 优化 器 所 得 出 的 最 佳 查询 路 径 可 能 不 是 最 优 的 。 
因此 ,面向 决策 支持 的 关系 数据 库 在 查询 优化 器 上 也 做 了 改进 ,同时 根据 索引 的 使 用 特性 增 
加 了 多 重 索 引 扫描 的 能 力 。 数 据 仓 库 的 查询 常常 只 需要 数据 库 中 的 部 分 记录 ,普通 关系 数 
据 库 没 有 提供 这 样 的 查询 能 力 , 只 好 将 整个 表 的 记录 进行 排序 ,从 而 耗费 了 大 量 的 时 间 。 决 
策 支 持 的 关系 数据 库 在 此 做 了 改进 ,提供 了 这 一 功能 。 此 外 ,数据 仓库 的 查询 并 不 需要 像 事 
务 处 理 系统 那样 精确 ,但 在 大 容量 数据 环境 中 需要 有 足够 短 的 系统 响应 时 间 。 因 此 ,一 
些 数据 库 系 统 增加 了 采样 数据 的 查询 能 力 ,在 精确 度 允 许 的 范围 内 ,大 幅度 提高 系统 查 
询 效 率 。 

数据 仓库 要 解决 的 第 四 个 问题 是 支持 多 维 分 析 的 查询 模式 ,这 也 是 关系 数据 库 在 数据 
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仓库 领域 遇 到 的 最 严峻 的 挑战 之 一 。 用 户 在 使 用 数据 仓库 时 的 访问 方式 与 传统 的 关系 数据 
库 有 很 大 的 不 同 。 对 于 数据 仓库 的 访问 往往 不 是 简单 的 表 和 记录 的 查询 ,而 是 基于 用 户 业 
务 的 分 析 模 式 , 即 联机 分 析 。 它 的 特点 是 将 数据 想象 成 多 维 的 立方 体 , 用 户 的 查询 便 相当 于 
在 其 中 的 部 分 维 ( 棱 ) 上 施加 条 件 , 对 立方 体 进 行 切片 分割 ,得 到 的 结果 则 是 数值 的 矩阵 或 
向 量 ,并 将 其 制 成 图 表 或 输入 数理 统计 的 算法 。 关 系数 据 库 本 身 没 有 提供 这 种 多 维 分 析 的 
查询 功能 ,而 且 在 数据 仓库 发 展 的 早期 ,人 们 发 现 采 用 关系 数据 库 去 实现 这 种 多 维 查询 模式 
非常 低 效 .查询 处 理 的 过 程 也 难以 自动 化 。 为 此 ,人 们 提出 了 多 维 数据 库 的 概念 。 多 维 数据 
库 是 一 种 以 多 维 数据 存储 形式 来 组 织 数据 的 数据 管理 系统 , 它 不 是 关系 型 数据 库 , 在 使 用 时 
需要 将 数据 从 关系 数据 库 中 转载 到 多 维 数据 库 中 方 可 访问 。 采 用 多 维 数据 库 实 现 的 联机 分 
析 应 用 我 们 称 之 为 MOLAP。 多 维 数据 库 在 针对 小 型 的 多 维 分 析 应 用 有 较 好 的 效果 ,但 它 
缺少 关系 数据 库 所 拥有 的 并 行 处 理 及 大 规模 数据 管理 扩展 性 ,因此 难以 承担 大 型 数据 仓库 
应 用 。 这 样 的 状态 直到 星 型 模式 在 关系 数据 库 设计 中 得 到 广泛 的 应 用 才 彻 底 改变 。 几 年 
前 ,数据 仓库 专家 们 发 现 , 关 系数 据 库 若 采用 星 型 模式 来 组 织 数据 就 能 很 好 地 解决 多 维 分 析 
的 问题 。 星 型 模式 只 不 过 是 数据 库 设 计 中 数据 表 之 间 的 一 种 关联 形式 , 它 的 巧妙 之 处 在 于 
能 够 找到 一 个 固定 的 算法 ,将 用 户 的 多 维 查询 请 求 转换 成 针对 该 数据 模式 的 标准 SQL 语 
句 , 而 且 该 语句 是 最 优化 的 。 星 型 模式 的 应 用 为 关系 数据 库 在 数据 仓库 领域 打开 绿灯 。 采 
用 关系 数据 库 实 现 的 联机 分 析 应 用 称 为 ROLAP。 目 前 ,大 多 数 厂商 提供 的 数据 仓库 解决 
方案 都 采用 ROLAP。 在 数据 仓库 的 数据 存储 管理 领域 ,从 当今 的 技术 发 展 来 看 ,面向 决策 
支持 扩充 的 并 行 关 系数 据 库 将 是 数据 仓库 的 核心 。 在 市 场 上 ,数据 库 厂商 将 成 为 数据 仓库 
的 中 坚 力量 。 


5. 对 数据 增长 的 管理 


对 数据 增长 的 管理 可 以 采用 以 下 方法 : 

1) 概括 技术 

大 量 使 用 概括 技术 可 以 明显 地 减少 数据 量 。 当 用 户 把 非常 详细 的 信息 转化 为 高 度 概括 
的 信息 时 ,可 以 大 幅度 地 减少 所 需 的 存储 量 。 

2) 对 细 齐 数据 的 控制 

控制 细 剖 的 程度 可 以 大 大 减少 数据 量 。 尽 管用 户 往往 会 提出 “我 需要 所 有 的 数据 ”, 但 
最 终 用 户 一 般 可 以 用 比 实际 需要 更 少 的 详细 数据 来 管理 他 们 的 任务 ,应 提供 对 细 训 数据 的 
访问 路 径 ,以 满足 对 低 粒度 数据 的 偶然 需要 。 

3) 历史 数据 的 限制 

限制 必须 存储 到 数据 仓库 中 历史 数据 的 长 度 。 由 于 经 济 活动 与 企业 的 经 营 管理 往往 具 
有 一 种 周期 性 ,在 一 定 的 时 间 内 是 周期 性 或 者 重复 性 发 生 的 。 把 存储 的 历史 信息 限制 到 上 
一 个 商业 周期 可 能 比分 析 具 有 边缘 值 的 数据 更 有 价值 。 

4) 数据 使 用 范围 的 限制 

利用 能 够 改变 收集 数据 环境 的 商业 事件 知识 来 限制 必须 管理 的 数据 范围 。 例 如 , 当 两 
个 公司 合并 时 ,它们 各 自 的 历史 数据 价值 可 往往 是 不 一 样 的 ,在 数据 仓库 中 可 以 选择 存储 具 
有 较 大 价值 的 历史 数据 ,而 对 无 价值 的 数据 可 以 抛弃 。 
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5) 睡眠 数据 的 移出 

虽然 在 数据 仓库 的 应 用 中 应 该 根据 历史 情况 删除 不 再 使 用 的 详细 数据 。 但 是 用 户 往往 
还 会 过 高 估计 历史 数据 保存 的 年 限 , 可 能 提出 了 实际 上 对 决策 分 析 没有 什么 价值 的 数据 ,使 
这 些 无 用 的 数据 在 数据 仓库 中 大 量 地 积存 下 来 ,不 少数 据 在 数据 仓库 中 长 期 无 人 使 用 。 造 
成 了 数据 仓库 中 有 大 量 的 睡眠 数据 。 解 决 办 法 就 是 找 出 并 移出 查询 时 很 少 用 到 的 数据 。 将 
这 些 很 少 使 用 的 数据 移出 数据 仓库 ,或 减少 存储 量 , 可 以 提高 查询 处 理 的 效率 。 或 采用 邻 线 
存储 系统 的 二 级 存储 模式 。 所 谓 邻 线 存储 系统 就 是 一 种 处 于 在 线 和 离线 之 间 的 存储 系统 ， 
这 种 系统 虽然 不 是 在 线 联机 状态 ,但 是 可 以 为 用 户 提供 一 个 合理 的 访问 时 间 。 由 于 其 价格 
比 在 线 式 的 存储 系统 要 低廉 ,因此 适合 睡眠 数据 的 存储 。 


8.4.4 数据 仓库 应 用 中 的 法 律 问 题 
1. 数据 的 隐私 权 问题 


客户 的 隐私 问题 是 数据 仓库 管理 中 一 个 背景 问题 ,在 建立 和 管理 数据 仓库 的 过 程 中 ,对 
于 收集 .运用 、 分 发 和 管理 客户 信息 以 及 对 信息 的 选择 ,都 需要 建立 一 系列 明确 的 政策 .措施 
和 指导 方针 。 客 户 不 仅 是 保护 客户 隐私 权 义 务 ,更 重要 的 是 不 要 使 企业 陷入 因 保护 客户 隐 
私 不 当 而 带 来 的 诉讼 泥 淖 中 。1980 年 由 OECD( 经 合 组 织 ) 颁 布 (隐私 保护 管理 指导 方针 》 
对 个 人 隐私 数据 的 收集 与 处 理 做 了 一 些 规定 。 个 人 数据 必须 符合 实际 情况 ,能 够 准确 、 完 整 
地 反映 个 人 实际 情况 。 个 人 应 该 可 以 访问 自己 的 数据 ,可 以 就 有 关 自 己 数据 的 真实 性 提出 
质疑 。 应 该 能 够 知道 关于 个 人 数据 的 发 展 、 使 用 状况 和 有 关 政 策 等 信息 。 


2. 数据 隐私 权 的 处 理 


需要 让 客户 了 解 客户 数据 收集 的 目的 ,客户 数据 应 用 的 权利 ,客户 数据 的 认可 与 客户 数 
据 的 安全 保护 。 

数据 隐私 控制 框架 如 下 : 

(1) 增强 逻辑 数据 模型 。 

(2) 用 隐私 视图 支持 限制 性 访问 、 选 退 和 匿名 。 

(3) 为 个 人 数据 管理 提供 交互 式 客户 服务 界面 。 

(4) 提供 报告 验证 是 否 遵守 隐私 。 


8.4.5 数据 仓库 的 成 本 与 效益 分 析 
1. 数据 仓库 的 投资 回报 的 定量 分 析 


投资 回报 率 (Return On Investment,ROI) 、 回 报 周期 (payback period)、 净 现 值 (net 
present value) 和 内 部 回报 率 (internal rate of return) 等 。 


2. 数据 仓库 投资 回报 的 定性 分 析 包 括 


(1) 为 客户 提供 更 好 的 服务 。 
(2) 建立 企业 内 部 的 合作 关系 。 
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(3) 对 市 场 机 会 快速 反应 。 
(4) 既 能 够 管理 宏观 数据 也 能 够 管理 微观 数据 。 
(5) 改善 管理 能 力 。 


8.5 小 结 


本 章 主要 介绍 数据 仓库 开发 应 用 实例 ,主要 是 利用 SQL Server 2005 集成 了 3 个 服务 
SQL Server 2005 Analysis Services、SQL Server 2005 Integration Services,\ SQL Server 
2005 Reporting Services 等 来 实现 数据 仓库 系统 的 开发 ,SQL Server 2005 还 提供 了 一 个 数 
据 仓 库 与 商业 智能 应 用 系统 的 开发 环境 一 一 SQL Server Business Intelligence Development 
Studio。 本 章 中 重点 介绍 了 SQL Server 2005 Analysis Services、 SQL Server 2005 Integration 
Services 等 工具 。 

同时 ,本 章 还 介绍 了 如 何 利用 SQL Server 2005 数据 仓库 工具 进行 数据 仓库 的 创建 、 联 
机 在 线 分 析 系统 (OLAP) 实 施 .数据 挖掘 实施 应 用 。 并 通过 大 量 数据 仓库 应 用 实施 案例 让 
读者 体会 数据 仓库 应 用 给 企业 带 来 的 效益 。 


1. 填空 题 
(1) SQL Server 2005 集成 了 三 个 服务 来 实现 数据 仓库 系统 的 开发 : 
,同时 ,还 提供 了 一 个 数据 仓库 与 商业 智能 应 用 系统 的 开发 环境 一 一 


o 


(2) OLAP 是 由 关系 数据 库 之 父 E. F. Codd 于 1993 年 提出 的 一 种 数据 动态 分 析 模 型 ， 


它 允 许 以 一 种 称 为 的 访问 来 自 商 业 数 据 源 (如 数据 仓库 ) 的 经 过 聚合 和 组 
织 整 理 的 数据 。 

(3) OLAP 将 数据 分 为 两 种 特征 ,一 种 为 :如 一 个 销售 分 析 模 型 中 的 销售 额 、 
毛利 等 ;还 有 一 种 为 ,如 销售 分 析 中 的 时 间 周 期 .产品 类 型 、 销 售 模式 、 销 售 区 域 
等 。 前 者 是 被 观察 的 对 象 ,OLAP 术语 称 之 为 :后 者 为 观察 视角 ,OLAP 术语 称 之 
为 。 

(4) OLAP 有 多 种 实现 方法 ,根据 存储 数据 的 方式 不 同 可 以 分 为 、 


(5) 对 数据 增长 的 管理 可 以 采用 以 下 方法 : 

(6) 数据 仓库 数据 的 存储 和 管理 要 解决 的 四 个 问题 是 : 

(7) 数据 仓库 用 户 , 可 以 将 其 分 为 和 两 大 类 。 

(8) 如 何 定期 向 数据 仓库 追加 数据 是 一 个 十 分 重要 的 技术 。 数 据 仓 库 的 数据 是 来 自 
。 228 。 


OLTP 的 数据 库 中 ,问题 是 如 何 知 道 究 竟 哪 些 数据 是 在 上 一 次 追加 过 程 之 后 新 生成 的 。 
用 的 技术 和 方法 有 

(9) SQL Server 2005 中 数据 挖掘 切 能 的 目标 是 构建 具备 以 下 特征 的 工具 ， 

后 认 。 通 过 SQL Server 2005, Microsoft 努力 将 数据 控 

掘 从 博士 们 的 实验 室 中 搬出 来 ,使 得 负责 设置 和 运行 数据 模型 的 开发 人 员 和 DBA、 所 有 分 
析 人 员 决策 者 或 者 其 他 使 用 模型 输出 的 用 户 都 可 以 使 用 数据 挖掘 ,而 不 需要 具有 任何 专业 
知识 。 

(10) SQL Server 2005 的 数据 挖掘 功能 具有 一 个 ,使 得 应 用 程序 非常 简单 。 


2. 简 答题 


(1) 数据 从 数据 库 中 装载 到 数据 仓库 中 ,需要 用 到 SQL Server Integration Services 服 
务 , 即 SSIS ,请 描述 其 操作 步骤 。 

(2) 简 述 传统 的 OLAP 实施 的 步骤 。 该 实施 步骤 瓶颈 在 什么 地 方 ? 

(3) 简 述 SQL Server 2005 中 Max@X Analyser 的 OLAP 实施 步骤 。 

(4) 简 述 SQL Server 2005 数据 挖掘 应 用 步骤 。 

(5) 简 述 数据 仓库 应 用 中 的 法 律 问题 包括 哪些 内 容 。 
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9.1 报表 概述 


在 本 书 前 面 学 习 了 建立 数据 仓库 和 数据 挖掘 算法 如 何 分 析 数 据 。 分 析 的 结果 是 商业 智 
能 需要 的 最 后 反馈 信息 。 但 是 ,建立 这 些 信息 只 成 功 了 一 半 , 把 商业 智能 及 时 地 给 决策 者 与 
创建 这 些 智 能 同样 重要 。 然 而 ,在 商业 智能 领域 ,报表 仍然 占据 着 绝对 的 地 位 。 因 此 ,一 个 
功能 强大 且 易 于 操作 的 报表 环境 是 很 重要 ,SQL Sever 2005 具有 实现 商业 智能 的 工具 ,其 
中 Reporting Services 正好 制作 智能 报表 的 工具 。 

本 章 将 学 习 SQL Sever 2005 中 实现 报表 制作 ,学 习 Reporting Services 丰富 的 功能 ,以 
此 来 共享 商业 智能 的 原始 方法 一 一 报表 。 

尽管 Reporting Services 仅仅 是 一 个 报表 认证 的 平台 ,但 它 是 一 个 极为 有 用 工具 。 
Reporting Services 除了 能 够 创建 报表 之 外 , 它 还 提供 了 更 多 的 功能 。 事 实 上 , 它 提 供 了 一 
套 齐 全 的 ,企业 级 的 报表 管理 与 分 发 服务 。 使 用 已 有 的 企业 内 部 网 结构 , 它 就 可 以 在 一 个 组 
织 内 安全 地 分 发 报表 。 另 外 , 它 还 可 以 在 单机 或 者 基于 Web 的 应 用 中 整合 报表 。 

Reporting Services 融合 了 静态 的 纸样 报表 和 交互 的 商业 智能 工具 。 除 了 创建 打印 报 
表 之 外 , 它 允 许 用 户 与 报表 交互 ,从 摘要 中 查找 到 详细 信息 ,查阅 相关 报表 ,甚至 跳 到 相关 网 
站 。 为 了 全 面 地 了 解 Reporting Services, 需 要 创建 报表 ,鼓励 用 户 与 它 交 互 。 

无 论 是 开发 者 还 是 用 户 都 可 以 在 Reporting Services 中 创建 报表 。Reporting Services 
提供 了 两 种 报表 认证 工具 : Reporting Builder 和 Reporting Designer。Reporting Builder 由 
高 级 用 户 和 分 析 人 员 使 用 ,他 们 可 能 需要 做 一 些 自己 专用 的 即席 报表 ,而 不 需要 了 解数 据 库 
结构 以 及 创建 查询 的 详细 信息 。 在 Reporting Builder 中 ,报表 提交 者 使 用 的 是 数据 库 的 一 
种 简化 模式 ,所 以 他 们 在 创建 报表 时 不 需要 知道 查询 数据 库 的 细节 。 一 旦 Reporting 
Builder 创建 了 一 个 报表 ,就 可 以 将 该 报表 部 署 到 Report Server 中 ,并 且 它 的 运行 方式 与 
Reporting Designer 创建 的 报表 相同 。 

对 于 这 类 用 户 来 说 ,Reporting Builder 是 一 个 很 好 的 工具 ,但 是 , 它 为 了 易 用 性 ,只 好 相 
当 简 单 。 因 此 ,Reporting Builder 不 支持 Reporting Service 报表 所 有 的 特性 。 相 比 之 下 ， 
Reporting Designer 提供 的 功能 更 多 ,能够 创建 令 人 感 兴趣 且 性 能 更 高 的 报表 ,这 些 报表 可 
以 把 商业 智能 传递 给 报表 的 使 用 者 。Report Designer 中 提供 了 用 来 创建 Reporting 
Services 不 同 种 类 报表 的 各 种 必要 工具 ,这 些 工 具 可 以 从 数据 源 中 选择 信息 ,创建 一 个 报表 
布局 图 ,并 检验 所 生成 的 报表 。 更 让 人 兴奋 的 是 ,Business Intelligence Development Studio 
和 Visual Studio 2005 中 都 包括 了 Reporting Designer。 


9.1.1 报表 结构 


一 个 报表 项 目 可 以 包含 很 多 报表 ,每 个 报表 都 包括 两 个 不 同 的 指令 集 , 它 们 确定 了 报表 
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的 内 容 。 第 一 个 指令 集 是 数据 定义 , 它 控制 报表 中 数据 的 来 源 以 及 将 要 选择 的 信息 。 第 二 
个 指令 集 是 报表 布局 , 它 控制 报表 如 何在 屏幕 或 者 纸样 上 显示 。 这 两 个 指令 集 被 存储 时 使 
用 的 都 是 报表 定义 语言 (report definition language) 。 

图 9. 1 显示 了 一 个 详细 的 报表 结构 示意 图 。 


[一 一 
数据 源 
报表 项 目 
个 My report 列 
Reporting Designer 
数据 区 域 了 行 数据 集 
RDL 文 件 一 一 页 1 py | 


图 9.1 报表 结构 示意 图 


1. 数据 定义 


数据 定义 包含 两 个 部 分 : 数据 源 和 数据 集 。 数 据 源 与 前 面 OLAP 项 目 中 使 用 的 数据 源 
相同 : 一 个 指令 集 , 它 定义 了 报表 可 以 访问 哪个 数据 源 来 获得 数据 。 数 据 源 定义 可 以 在 报 
表 定 义 中 创建 ,也 可 以 在 报表 定义 的 外 部 创建 ,这 样 多 个 报表 可 以 共享 。 在 很 多 情况 下 , 当 
使 用 一 个 全 局 的 共享 数据 源 时 ,报表 更 易于 管理 。 

当 报 表 执行 时 , 它 使 用 数据 源 指令 获得 数据 源 的 访问 权限 。 然 后 ,从 这 个 数据 源 中 提取 
数据 ,生成 适合 自己 使 用 的 格式 。 这 种 新 的 格式 称 为 数据 集 。 

数据 集 的 内 容 由 工具 Query Designer 定义 。Query Designer 可 以 帮助 用 户 建 立 一 个 
数据 库 查 询 ,该 查询 可 能 是 查询 关系 数据 库 的 T-SQL 语句 ,也 可 能 是 查询 多 维 数据 的 MDX 
语句 ,或 者 是 查询 挖掘 模型 数据 的 DMX 语句 。 它 给 数据 源 提供 指令 ,告诉 数据 源 对 于 报表 
需要 选择 哪些 数据 。 该 查询 作为 数据 定义 的 一 部 分 保存 在 报表 中 。 

数据 集中 查询 选择 的 数据 由 行 和 列 组 成 , 行 与 数据 源 中 的 记录 对 应 , 列 与 数据 源 中 的 字 
段 对 应 (Reporting Services 不 支持 分 层 的 结果 集 , 所 以 MDX 和 DMX 结果 集 都 是 平展 地 输 
入 到 单个 表格 的 行 与 列 中 )。 数 据 集中 字段 上 的 数据 作为 数据 定义 保存 在 报表 中 ,报表 定义 
只 保存 字段 的 名 称 和 数据 类 型 , 它 并 不 保存 真正 的 数据 。 每 次 报表 运行 时 ,真正 的 数据 是 从 
数据 源 获得 的 。 


2. 报表 布局 


将 数据 提取 到 数据 集中 后 ,并 不 能 马上 使 用 它们 ,它们 必须 以 某 种 方法 展现 在 用 户 面 
前 。 它 们 需要 指明 字段 在 屏幕 或 者 纸样 上 显示 的 位 置 ,还 需要 增加 一 些 内 容 , 如 名 称 、 标 题 
和 页 数 。 所 有 的 这 些 构成 了 报表 布局 。 

大 多 数 情况 下 ,报表 布局 不 包括 与 数据 集 交 互 的 区 域 。 这 个 特定 的 区 域 被 称 为 数据 区 
域 , 它 反复 通过 将 报表 布局 中 的 一 个 片断 应 用 到 每 行 上 ,来 显示 数据 集中 所 有 的 行 。 
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3. 报表 定义 语言 


数据 定义 和 报表 布局 这 些 信息 部 使 用 报表 定义 语言 (RDL) 存 储 ,Microsoft 专门 为 存储 
报表 定义 而 设计 的 一 种 Extensible Markup Language(XML) 标 准 。 它 包括 数据 源 指令 . 定 
义 数据 集 的 查询 信息 以 及 报表 布局 。 每 当 Reporting Designer 创建 一 个 报表 时 ,RDL 就 保 
存在 一 个 后 缀 名 为 . rdl 的 文件 中 。 


9.1.2 传递 报表 


前 面 已 经 讨论 了 Reporting Server 怎样 创建 一 个 报表 ,下 一 步 将 讨论 报表 创建 完毕 后 
将 传递 到 何 处 。 报 表 可 以 通过 Report Manager 网 站 传递 给 用 户 , 也 可 以 通过 响应 一 个 
Web 服务 请 求 而 传递 出 去 ,这 个 请 求 来 自 于 其 他 程序 而 不 是 用 户 。 另 外 , 当 用 户 订阅 了 报 
表 时 , 它 可 以 通过 邮件 传递 给 用 户 。 


1. Report Manager 网 站 


车 用 户 要 从 Report Server 请 求 一 个 报表 ,可 以 通过 Report Manager 网 站 来 实现 。 
Report Manager 网 站 把 报表 组 织 成 文件 夹 的 形式 ,用 户 可 以 浏览 这 些 文件 夹 ,找到 自己 需 
要 的 报表 ,还 可 以 通过 搜索 报表 的 标题 和 描述 来 查找 报表 。 

Report Manager 也 可 以 在 文件 夹 和 报表 上 设置 安全 级 别 。 有 了 这 些 安全 网 站 ,管理 者 
就 可 以 为 站 点 的 访问 者 创建 安全 角色 。 这 些 安全 角色 控制 用 户 对 文件 夹 和 报表 的 访问 。 

在 Reporting Manager 中 ,报表 以 HTML 格式 显示 。 一 个 报表 作为 一 个 HTML 页 面 
显示 完毕 后 ,用 户 就 可 以 以 任何 可 用 的 格式 导出 该 报表 。 


2. 订阅 报表 


如 果 用 户 不 想 自 己 去 查找 报表 ,Reporting Services 可 以 主动 把 报表 传递 给 用 户 。 换 句 
话说 ,用 户 不 需要 到 Report Manager 网 站 上 去 接收 报表 ,他 们 可 以 使 用 一 个 订阅 服务 ,主动 
将 报表 传递 给 他 们 。 用 户 可 以 在 Report Manager 上 定位 一 个 报表 ,然后 订阅 它 , 这 样 
Report Manager 就 可 以 在 将 来 把 该 报表 传递 给 它 的 订阅 者 。 

当 用 户 订阅 一 个 报表 时 ,他 们 要 提供 一 个 邮箱 地 址 ,以 后 订阅 的 报表 要 么 以 电子 邮件 内 
容 的 方式 ,要 人 么 以 电子 邮件 附件 的 方式 传递 给 用 户 , 这 两 种 方式 取决 于 用 户 请 求 的 方式 。 当 
用 户 订 阅 报表 时 ,他 们 可 以 指明 报表 传递 的 方式 。 

网 站 管理 者 也 可 以 建立 报表 订阅 。 这 种 报表 订阅 使 用 一 个 邮件 地 址 列表 ,传递 大 量 的 
邮件 , 它 不 需要 每 个 用 户 都 到 Report Manager 上 创建 一 个 订阅 ,而 是 根据 列表 上 的 邮件 地 
址 给 每 个 用 户 传递 邮件 。 


3. Web 服务 界面 


Report Server 给 用 户 传递 报表 时 ,要么 根据 用 户 的 请 求 ,要 么 基于 报表 订阅 。 除 此 之 
外 , 它 还 能 将 报表 传递 给 其 他 应 用 软件 ,这 可 以 通过 一 系列 的 Web 服务 完成 。Report 
Server 上 有 一 个 名 为 Web 服务 的 程序 , 它 以 特定 的 格式 请 求 一 些 特定 的 报表 ,这 些 报 表 生 
成 后 ,会 作为 Web 服务 请 求 的 响应 返回 给 该 程序 。 
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9.1.3 Report Server 功能 结构 


生成 一 个 报表 后 ,就 该 在 用 户 之 间 共 享 这 个 报表 了 。 这 个 过 程 ,是 一 个 报表 处 于 报表 项 
目的 初级 阶段 ,向 处 于 Report Server 上 的 中 级 阶段 的 转变 过 程 , 即 报表 配置 。 这 个 过 程 相 
对 比较 简单 。 报 表 服 务 (Report Services) 结 构 包 括 Report Server 的 服务 功能 结构 和 整个 
Report Services 的 服务 组 成 部 分 。 

Report Server 是 Reporting Services 中 较为 难以 理解 的 一 部 分 , 它 是 两 个 软件 环境 ,可 
以 使 报表 在 用 户 ( 至 少 是 那些 拥有 服务 器 访问 权限 的 用 户 ) 之 间 共 享 。 图 9. 2 中 展示 了 
Report Server 的 功能 结构 。 
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图 9.2 Report Server 的 功能 结构 


1. 报表 目录 


报表 在 Report Server 上 部 署 完毕 后 , 它 的 一 个 RDL 定义 副本 就 被 放 在 了 报表 目录 上 。 
报表 目录 是 一 个 数据 库 集 ,用 来 存储 Report Server 上 所 有 可 用 报表 的 定义 。 它 还 存储 
Report Server 上 必要 的 配置 .安全 级 别 和 缓存 信息 。 

尽管 我 们 可 以 使 用 ODBC 或 OLE DB 将 数据 源 中 的 数据 提供 给 报表 ,但 报表 目录 数据 
库 只 能 在 SQL Server 2000 和 SQL Server 2005 中 使 用 。 报 表 目 录 数 据 库 在 Reporting 
Services 安装 时 创建 。 


2. 报表 处 理 器 


需要 执行 一 个 报表 时 ,可 以 使 用 Report Server 的 报表 处 理 器 完成 这 个 任务 。 它 从 报表 
目录 中 获取 报表 的 RDL, 然 后 从 RDL 中 读 取 信息 ,确定 报表 的 内 容 。 

生成 报表 时 ,报表 处 理 器 协调 Report Sever 其 他 部 件 的 操作 ,获取 其 他 部 件 的 输出 ,并 
把 它们 合成 在 一 起 生成 一 个 完整 的 报表 。 


3. 数据 提供 者 


当 报 表 处 理 器 处 理 RDL 中 的 数据 集 定义 时 , 它 获得 数据 ,然后 把 数据 集 填充 到 数据 集 
”233 “。 


中 。 首 先 , 它 根据 报表 数据 源 中 的 指令 ,连接 到 数据 源 服务 器 或 文件 上 。 然 后 ,选择 一 个 数 
据 提 供 者 ,这 个 提供 者 知道 如 何 从 数据 源 中 获得 数据 。 

选择 了 数据 提供 者 后 ,数据 提供 者 连接 到 数据 源 ,选择 报表 需要 的 信息 。 它 把 信息 返回 
给 报表 处 理 器 ,在 报表 处 理 器 中 ,数据 被 输入 数据 集 内 供 报表 使 用 。 


4. Renderer 


报表 所 需 的 数据 准备 好 后 ,报表 处 理 器 就 开始 处 理 报表 的 布局 。 它 先 查 看 格式 ,有 可 能 
是 HTML、PDF 或 者 是 其 他 可 能 格式 中 的 一 种 。 然 后 ,报表 处 理 器 会 调用 Renderer, 因 为 
Renderer 知道 如 何 生成 这 种 格式 的 内 容 。 

Renderer 读 取 报表 布局 中 的 内 容 。 报 表 布 局 与 数据 集结 合 在 一 起 ,对 于 报表 中 重复 的 
内 容 ,Renderer 会 复制 这 些 行 ,展开 报表 布局 ,然后 将 其 转换 成 所 要 求 的 输出 格式 。 这 个 过 
程 产生 的 结果 就 是 一 个 报表 。 


5. 请 求 处 理 器 


请 求 处 理 器 负责 接收 请 求 , 把 这 些 请 求 传递 到 报表 处 理 器 。 报 表 处 理 器 创建 了 所 请 求 
的 报表 后 ,处理 器 又 负责 把 生成 的 报表 传递 给 用 户 。 


9.1.4 Report Services 的 组 成 部 分 


Reporting Services 并 不 是 计算 机 上 生成 报表 的 单个 程序 , 它 由 一 系列 的 服务 、Web 应 
用 程序 和 数据 库 协作 ,形成 一 个 报表 管理 环境 。 当 计划 安装 Reporting Services 时 ,应 对 每 
个 部 分 有 大 概 的 了 解 ,应 知道 这 些 部 分 如 何 协 同 工 作 组 成 一 个 完整 的 系统 ,这 很 重要 。 

图 9. 3 展示 了 一 个 完整 的 Reporting Services 安装 程序 的 各 个 部 分 。 每 部 分 在 开发 . 管 
理 和 传递 报表 ,或 者 在 管理 Reporting Services 自身 的 环境 上 ,都 扮演 着 一 个 特定 的 角色 。 
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图 9.3 Reporting Services 的 组 成 部 分 
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下 面 介 绍 Reporting Services 的 每 个 部 分 ,了 解 这 些 部 分 是 怎样 组 成 一 个 整体 的 。 
1。Report Server 服务 


Report Server 服务 是 Reporting Services 的 核心 部 分 。 如 图 9. 2 所 示 , Report Server 
负责 处 理 报表 请 求 , 这 个 过 程 包括 读 取 报表 定义 ,获得 报表 的 数据 ,以 及 用 指定 的 格式 显示 
报表 。 

Report Server 是 一 个 Windows 服务 , 它 也 可 以 作为 Web 服务 器 使 用 。 这 意味 着 
Report Server 不 用 直接 与 用 户 交 互 , 它 在 后 台 运 行 ,处 理 Web 服务 器 获得 的 其 他 程序 的 
请 求 。 

Report Sever 需要 一 个 有 效 的 用 户 名 和 密码 ,用 来 访问 报表 目录 。Report Server. config 
文件 保存 了 Report Sever 的 登录 信息 以 及 其 他 一 些 信 息 , 这 些 信息 确定 了 Report Server 的 
运行 方式 。 大 多 数 信 息 以 纯 文本 的 格式 保存 在 这 个 文件 中 ,可 以 使 用 记事 本 或 者 其 他 类 似 
的 文本 编辑 器 进行 编辑 ,但 是 ,登录 信息 经 过 了 加 密 处 理 , 只 有 通过 管理 工具 才能 修改 它 。 


2. 管理 工具 


管理 工具 (Administration Utility) 能 够 管理 Report Server 服务 ,可 以 改变 它 的 配置 。 
如 果 Report Server 服务 在 自动 启动 时 失败 ,那么 通过 这 些 工具 可 以 手动 启动 它 , 这 些 芽 具 
还 可 用 来 改变 服务 的 登录 信息 。 

它们 大 多 数 在 命令 窗口 中 运行 ,但 其 中 有 一 个 没有 Windows 用 户 界 面 , 这 个 工具 是 
Reporting Server Configuration Manager, 它 能 很 方便 地 查看 与 修改 Reporting Services 安 
装 程序 的 配置 。 

管理 工具 可 以 与 Report Server 服务 运行 在 同一 台 计 算 机 上 ,管理 这 人 台 计 算 机 的 配置 。 
但 大 多 数 管理 工具 管理 其 他 计算 机 上 的 Report Server 服务 ,这 种 管理 叫做 进程 管理 。 


3. SQL Server 2000/SQL Server 2005 和 SQL Server Agent 


当 Reporting Services 存储 报表 目录 数据 库 时 ,SQL Server 2000 和 SQL Server 2005 
被 要 求 能 获得 这 个 数据 库 。Reporting Services 使 用 SQL Server Agent 作为 任务 调度 器 ， 
当 用 户 建立 了 两 个 订阅 时 ,Reporting Services 生成 一 个 SQL Server Agent 任务 来 处 理 该 
订阅 。 

4. Report Server 数据 库 和 Reporting Server 临时 数据 库 


Reporting Services 在 SQL Server 中 使 用 两 个 数据 库 : Report Server 数据 库 和 Report 
Server 临时 数据 库 。Report Server 数据 库 用 来 存储 报表 目录 ,同时 也 保存 Report Manager 
站 点 的 信息 。Report Manager 站 点 上 的 信息 包括 网 站 的 文件 夹 结 构 以 及 文件 夹 和 报表 的 
安全 设置 。 

顾名思义 ,Report Server 临时 数据 库 用 来 临时 保存 Report Services 的 操作 信息 。 这 些 
信息 可 以 是 当前 用 户 在 Report Manager 站 点 上 的 痕迹 ,也 可 以 是 最 近 执行 的 报表 的 一 些 短 
期 副本 ,这 些 短期 副本 又 叫做 执行 缓存 (execution cache) 。 
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5. 网 络 信息 服务 


网 络 信息 服务 (IIS) 可 以 作为 Reporting Services Web 服务 的 主机 。Reporting Services 
安装 后 ,会 创建 了 一 个 网 站 和 一 个 Web 服务 。 因 此 ,IIS 对 于 Reporting Services 来 说 是 必 
不 可 少 的 。 


6. 报表 网 站 


安装 Reporting Services 时 会 创建 一 个 报表 网 站 。 报 表 网 站 提供 Reporting Services 的 
Report Manager 界面 。 如 果 Reporting Services 安装 在 名 为 www. MyRSServer. com 的 服 
务 器 上 ,那么 进入 www. MyRSServer. com/Reports 时 ,就 可 以 看 见 Report Manager 的 
主页 。 

报表 网 站 是 使 用 ASP. NET 技术 创建 的 ,这 意味 着 IIS 必须 支持 ASP. NET。 


7.Report Server Web 服务 


安装 Reporting Services 时 ,还 会 创建 一 个 名 为 Report Server 的 Web 服务 ,该 服务 允 
许 其 他 程序 甚至 管理 员 与 Reporting Services 交互 。 除 此 之 外 , 它 还 允许 其 他 程序 不 通过 
Report Manager 界面 就 获得 报表 。 总 而 言 之 ,Report Server Web 服务 允许 Report Services 
与 应 用 程序 紧密 地 整合 在 一 起 。 因 为 Web 服务 会 跨越 内 部 网 至 因特网 ,所 以 该 Web 服务 
界面 允许 Reporting Services 整合 任何 应 用 程序 。 

Report Server Web 服务 也 是 用 ASP. NET 技术 建立 的 ,所 以 在 IIS 上 必须 激活 对 
ASP. NET 的 支持 。 


8. Report Designer 


前 面 已 经 讨论 过 ,要 使 用 Report Designer 创建 Reporting Services 报表 ,要 么 在 
Bussiness Intelligence Development Studio 中 ,要 么 在 Visual Studio 2005 中 。 在 这 两 者 中 ， 
Report Designer 的 功能 都 是 相同 的 ,它们 创建 的 报表 没有 任何 区 别 。 


9. 文档 


Reporting Services 的 最 后 一 个 组 成 部 分 是 文档 ,这 些 文档 可 以 在 SQL Server 的 联机 
丛书 上 找到 。Reporting Services 安装 完毕 后 ,就 可 以 通过 “开始 ”菜单 查看 SQL Server 联 
机 从 书 , 在 “程序 ”一 Microsoft SQL Sever 2005 一 “文档 和 教程 ”~ “SQL Server 联机 从 书 ” 
条 目下 可 以 找到 它 。 除 此 之 外 ,Report Manager 界面 的 帮助 文档 可 以 通过 报表 网 站 进行 
访问 。 


9.2 报表 向 导 制 作 报 表 
打开 SQL Server Business Intelligence Development Studio 以 后 ,可 以 来 创建 报表 。 为 


了 了 解 报表 的 基本 结构 ,开始 先 快速 看 一 下 如 何 使 用 报表 向 导 创作 一 个 简单 的 ,表格 状 的 报 
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表 。 报 表 向 导 将 会 带 用 户 经 历 创建 一 个 基本 报表 的 所 有 步骤 ,也 就 是 说 ,可 以 做 出 调整 , 添 


加 更 多 的 功能 到 报表 当中 。 
SQL Server Business Intelligence Development Studio 制作 报表 ,其 打开 方法 如 图 9. 4 


所 示 。 


ieroso » SQL Server Business Intelligence Development Studi 
回 worills Firefox » $2 SQL Server Ilanagement Studio 


图 9.4 打开 SQL Server Business Intelligence Development Studio 


这 个 工具 提供 报表 的 预览 功能 ,并 且 提 供 更 多 的 可 视 的 设计 界面 。 使 用 起 来 比较 方便 。 
所 以 接 下 来 都 使 用 这 个 工具 。 这 个 工具 只 能 制作 rdl。 但 报表 的 设计 方法 也 适用 于 rdlc。 


9.2.1 向 导 制 作 报表 

向 导 制 作 报表 是 简单 的 方式 ,通过 向 导 制 作 可 以 简化 制作 的 过 程 的 详细 操作 ,本 节 通 过 
向 导 制 作 报表 ,其 操作 步骤 如 下 : 

(1) 新 建 一 个 报表 服务 器 项 目 。 

选择 “文件 ”>“ 新 建 " 命 令 , 再 单 击 “ 项 目 ”。 或 者 单 击 工 具 栏 上 最 左边 的 按钮 来 创建 一 
个 新 的 项 目 , 如 图 9.5 所 示 。 


ad] 
项 目 类型 @) : 模板 CD) 外 | 法 
J Visaal Stadie 已 安装 的 模板 


各 malysis Services 项 目 玖 Integration Services 项 目 
多 导入 hnalysis Services 9.0 .， 网 报表 服务 器 项 目 向 导 
司 报 表 服 务 器 项 目 国 报 表 模型 项 目 


我 的 模板 
全 搜索 联机 模板 


解 块 方案 名 称 人 ): ReportDeno 太阳 娃 解 决 方案 的 目录 @) 
厂 添加 到 源 代码 管理 QD) 


Cm |] we | 


图 9.5 创建 报表 项 目 


在 “项 目 类 型 "列表 中 , 单 击 “ 商 业 智能 项 目 ”。 在 “模板 ”列表 中 , 单 击 “ 报 表 服 务 器 项 
目 ”。 在“ 名称 ”中 ,输入 ReportDemo, 再 单 击 “ 确 定 ” 按 钮 以 创建 项 目 。 

这 就 成 功 创建 了 教程 报表 项 目 , 接 下 来 将 在 该 项 目 中 添加 新 的 报表 项 。 巧 合 的 是 ,报表 
服务 器 项 目 向 导 和 报表 服务 器 项 目 条 目 具 有 相似 的 行为 。 报 表 服务 器 项 目 向 导 选 项 简单 地 
省 去 一 步 , 直 接 来 到 报表 向 导 。 
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(2) 布 署 目录 设置 。 

“解决 方案 资源 管理 器 ”对 话 框 如 图 9.6 所 示 , 它 显示 在 设计 外 观 面 板 的 右上 方 。 这 是 
一 个 树 形 视图 ,显示 了 新 的 报表 项 目 组 件 。 项 目 名 称 显示 在 所 
有 用 于 分 组 共享 数据 源 和 报表 的 目录 图 标的 上 方 。 

右 击 ReportDemo ,弹出 “ReportDemo 属性 页 ”对 话 框 ,如 
图 9.7 所 示 , 以 此 来 设置 项 目的 属性 。 

TargetServerURL 为 报表 服务 器 的 URL, 指 向 那个 报表 服 
务 器 的 安装 路 径 , 可 以 类 似 http:// Localhost/ReportServer。 
如 果 不 确定 ,请 询问 服务 器 管理 员 。 部 署 文件 夹 其 实 不 是 一 个 物理 上 的 文件 夹 。 它 的 虚拟 
路 径 由 报表 服务 通过 Web 服务 器 来 管理 和 展示 。 在 随后 使 用 报表 管理 器 时 ,将 会 看 到 这 个 
文件 夹 。 


图 9.6 “解决 方案 资源 管理 
器 "对 话 框 


可 到 
配置 CC); | 活动 Debug) 可 于 各 加; 厅 癌 用 了 | 。 配置 管理 器 O). 
日 性 日 部 署 
党 规 DOverwriteDataSources False 
TargetDataSourceFolder 数 磊 源 
TareetReportFolde Reporthemo 
rm J/localhost/ReportServer, 


Se 


TargetServer UBL 
邵 屠 项 目的 目标 报表 服务 器 的 VRL， 例 如 http://hostnane/ReportServer 


wm | au | 
图 9.7 “ReportDemo 属性 页 ”对 话 框 


TargetReportFolder 为 本 项 目 部 署 在 服务 器 上 的 目录 。 这 个 目录 不 是 Windows 系统 
的 目录 ,也 不 是 IIS 上 的 虚拟 目录 。 a as 
中 的 一 个 字段 来 标识 一 下 而 已 。 

rdl 中 包含 有 数据 源 的 定义 ,数据 源 可 以 不 跟 项 目 部 署 在 同一 个 目录 。 
TargetDataSourceFolder 为 数据 源 要 部 署 到 的 目录 。 系 统 默认 报表 服务 器 已 经 有 一 个 叫 数 
据 源 的 目录 。 

(3) 创建 报表 。 

右 击 “报表 "图标, 并 且 选 择 菜 单 中 的 “添加 新 报表 ”。 这 个 动作 
将 打开 报表 向 导 , 如 图 9.8 所 示 。 

报表 向 导 将 会 引领 用 户 经 过 创建 一 个 新 报表 的 每 个 基本 步骤 。 
向 导 对话 框 的 第 一 页 是 一 个 快速 闪烁 的 窗口 ,如 图 9.9 所 示 , 它 包 

指令 和 介绍 信息 。 单 击 “ 下 一 步 " 按 钮 移动 到 下 一 页 ,进入 创建 数据 源 窗口 ,如 图 9. 10 
所 示 。 


图 9.8 添加 新 报表 
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三 轩 > ”欢迎 使 用 报表 向 导 


报表 向 导 可 以 帮助 您 自 建 报表 。 通 过 此 向 导 ， 您 可 以 


-站 了 


回 不 再 显示 此 页 E) 


图 9.9 “报表 向 导 ” 对 话 框 


择 数据 源 
选择 此 报表 要 从 中 获取 数据 的 数据 源 或 创建 新 的 数据 源 。 

个 共享 数据 源 E) 

@ 新 建 数据 源 到 ) 
名 称 凶 ) : 
AdventureWorks 
类 型 了 
有 eroso ft SQL Serw EE 
连接 字符 审 C) : 

编辑 由) 

口 使 其 成 为 共享 数据 源 四 ) 
种 助人 0 下 - 步 加 》] | 守成 四 > 


图 9. 10 选择 数据 源 


(4) 创建 数据 源 。 

创建 数据 源 通常 使 用 一 个 表示 数据 库 位 置 和 名 字 的 命名 是 有 意义 的 。 在 这 个 例子 当 
中 ,将 使 用 随 报表 服务 一 起 已 经 安装 的 AdventureWorks 示例 数据 库 。 

如 图 9. 10 所 示 ,确保 “新 建 数据 源 ” 单 选 按钮 已 经 选中 ,并 在 名 称 文本 框 中 输入 数据 库 
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名 “AdventureWorks”。 类 型 选择 Microsoft SQL Server。 然 后 单 击 “编辑 ”按钮 。 


连接 必 性 加 四 


数据 源 全 ); 


Microsoft SQL Server (SqlClient) 


服务 器 名 到 ) : 


LocslHost 


| 回合 用 Windows 身 从 验证 届 
” 〇 使用 SQL Server 身份 验证 四) 


用 记名 


| ”省 码 包 


和 
“连接 到 一 个 数据 库 
加 选择 或 输入 一 个 数据 库 名 @) 


AdventureWorks 


〇 附加 一 个 汶 据 库 文件 Q): 


| Las@ 


逻辑 名 总) 


[TE] Cm Cw] 


图 9.11 “连接 属性 ”对 话 框 


这 将 打开 一 个 “连接 属性 ”对 话 框 ,设置 连接 
字符 串 , 如 图 9. 11 所 示 。 如 果 用 过 使 用 SQL 
Server 的 Microsoft 的 其 他 产品 ,应 该 熟悉 这 个 
界面 。 

完成 “连接 属性 ”对 话 框 中 的 属性 配置 有 三 
个 步 又 : 

@ 从 下 拉 列 表 中 选择 数据 库 服务 器 。 因 为 正 
在 使 用 本 机 安装 的 数据 库 服务 器 ,输入 LocalHost。 

如 果 这 是 一 个 实际 的 应 用 程序 ,可 能 需要 从 
列表 中 选择 网 络 上 的 主机 名 ,然后 输入 服务 器 名 
或 者 输入 一 个 IP 地 址 以 连接 到 互联 网 上 的 一 台 
主机 上 。 

@ 为 了 使 用 集成 的 Windows 安全 功能 , 选 
中 第 一 个 单 选 按钮 ,上 面 写 着 “使 用 Windows 身 
份 验证 ”。 

如 果 使 用 的 是 SQL Server 安全 模型 ,可 以 


选择 第 二 个 选项 。 在 这 种 情况 下 ,数据 库 管理 员 将 提供 这 个 信息 。 

@ 从 “选择 或 输入 一 个 数据 库 名 ”下 拉 列 表 中 选择 AdventureWorks 数据 库 。 可 以 使 
用 “测试 连接 ”按钮 来 验证 设置 。 当 单 击 “ 确 定 ” 按 钮 时 ,将 创建 连接 字符 串 并 且 返 回 “ 报 表 向 
导 ” 对 话 框 ,如 图 9. 12 所 示 。 选 中 标注 为 “使 其 成 为 共享 数据 源 ” 的 复 选 框 ;这 样 将 使 这 个 数 
据 源 可 以 为 其 他 报表 所 用 。 这 个 简单 而 又 重要 的 功能 相当 有 用 ,可 以 节省 大 量 时 间 和 精力 。 


选择 数据 源 
选择 此 报表 要 从 中 获取 数据 的 数据 源 或 创建 新 的 数据 源 。 


TR 


共享 数据 源 GE) 


人 O 新 尘 数 据 源 开 ) 
名 称 的 ); 


Adventur elorks 


类 型 CD): 


Microso! Et SQL Server 


连接 字符 串 C); 


Data Source=VIEWSTREAN: Initial Catalogr-AdventureWorks 编辑 0) 


回 使 其 成 为 共享 数据 源 曙 ) 


。 240 。 


<t-5® ][F-sw > || a >» 取消 


图 9.12 创建 数据 源 窗口 


通过 在 服务 器 上 为 所 有 报表 创建 一 个 中 央 数 据 源 ,连接 数据 库 信 息 都 可 以 只 在 一 个 地 方 更 
改 , 却 能 够 影响 所 有 报表 。 这 比 所 有 报表 必须 分 别 进行 更 新 的 传统 方式 更 好 。 当 系统 管理 
员 将 数据 库 移动 到 另 一 台 服 务 器 上 ,或 者 将 报表 解决 方案 从 开发 环境 移植 到 实际 的 生产 服 
务 器 上 时 ,传统 的 方式 将 会 相当 不 便 。 

到 目前 为 止 ,报表 向 导 已 经 创建 了 一 个 报表 项 目 并 且 引 导 创 建 了 一 个 共享 数据 源 。 在 
看 到 任何 结果 之 前 ,需要 继续 完成 向 导 的 一 些 页 面 。 在 一 个 已 经 建立 的 报表 项 目 中 ,可 以 使 
用 之 前 创建 的 共享 数据 源 来 创建 一 个 新 报表 。 

(5) 创建 一 个 查询 。 

在 图 9.12 中 , 单 击 * 下 一 步 ?按钮 ,如 图 9. 13 所 示 。 


[ Ox 

设计 查询 = 

指定 获取 报表 数据 要 执行 的 查询 。 

2 
使 用 查询 生成 器 设计 查询 。 
查询 生成 器 册 ._ 

查询 字符 审 @); 

帮助 0D 《上 - 步 @ || 下 - 步 四 > | 减 四 2 | 取消 


图 9.13 设计 查询 


如 果 正 在 使 用 一 个 SQL Server 数据 库 作为 数据 源 ,这 是 一 个 Transact-SQL SELECT 
语句 ,用 来 为 报表 检索 数据 。 对 于 简单 查询 ,可 以 在 这 个 框 中 简单 地 输入 一 个 Transact- 
SQL 语句 。 对 于 大 部 分 查询 ,可 能 希望 使 用 查询 生成 器 (Query Builder) 选 项 。 

更 为 复杂 的 报表 可 能 包括 一 个 以 上 的 查询 。 事 实 上 ,一 个 报表 中 的 数据 甚至 可 以 从 多 
个 数据 源 中 获得 。 

单 击 “查询 生成 器 ”按钮 以 打开 一 个 Transact-SQL 查询 生成 器 的 对 话 框 。 查 询 生成 器 
具有 两 种 不 同 的 模式 。 图 9. 14 展示 了 通用 查询 设计 器 窗口 。 这 个 窗口 和 简单 的 文本 编辑 
器 一 样 , 没 有 错误 检查 .验证 或 者 代码 生成 功能 。 用 它 来 编写 对 数据 源 的 查询 ,而 不 是 使 用 
SQL Server 或 者 图 形 化 查询 设计 器 所 不 能 完成 的 复杂 查询 。 

单 击 最 左 侧 的 工具 栏 按钮 转换 到 图 形 化 查询 设计 器 。 图 9. 15 中 所 示 的 工具 栏 已 经 添 
加 到 SQL Server 2005 中 的 报表 服务 中 。 
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图 9.14 查询 生成 器 窗口 


[了 


多 | [ 回 | 图 | 亚 | 加 | ! 图 外 允 将 医 名 


| 输出 | 排序 类 型 | 排序 顺序 


Il 4 /ol Hpsl| 国 | 


图 9.15 生成 SQL 语言 


单 击 工具 栏 最 右 侧 的 “添加 表 ” 按 钮 以 显示 
“添加 表 ” 对 话 框 ,如 图 9. 16 所 示 。 

把 ProductCategory、 ProductSubcategory、 
Product 这 三 张 表 加 进来 。 

在 表 里 面 选中 这 些 字段 : ProductCategory 表 
的 ProductCategoryID、Name, ProductSubcategory 
表 的 ProductSubcategoryID、Name, Product 表 
的 ProductID、Name、Color、StandardCost。 

因为 有 三 个 Name, 所 以 为 每 个 Name 取 了 
别名 ,分 别 为 CategoryName、SubCategoryName 
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I 设计 窗口 


Protd roduction. 
ProductCostlistory (Production) 
ProductDeseription (Production) 
ProductDocunent (Production) 

ProductInventory (Production) 有 


ProduetListPricelfistory (Production) 
Productllodel (Production) 
ProductlodelIllustration (FProduction) 
FroductlodelProductDeseriptionCulture (Production) 
ProductPhoto (Production) 

ProductProductPhoto (Production) 

ProductRevien (Pro: 

Pr oductSubcatesory 


duction) 


9 | 
刷新 轩 ) 关闭 加 


图 9.16 添加 表 


和 ProductName, 如 图 9.17 所 示 。 


国 加 国有 下 国 | 必 郊区 国 本 


Froductlfamber 
NakeFlag 
[pinishedGoodsFlag 


ModifiedDate 


站 | 排序 类 型 排序 顺序 | 第 先 器 
ProductName Product (Froduction) 
Categorylane ProductCategory (Production) 
SubcategorylNane ProductSubcategory (Froduction) 
ProductCategoryID ProductCategory (Production) 
ProductSubcategoryID 
ProduetID 
Color 
StandardCost 


ProductSubcategory (Production) 
Product (Production) 升序 1 
Product (Production) 


Product (Production) 


司 司 司 司 司 司 司 司 司 


ELECT Production. Product. Nane RS Froductane, 
Production. ProductCategory. Nane AS CategoryNane, 
Production. ProductSubcategory. Nane AS SubcategoryNane, | 
Production. ProductCategory. ProductCategoryID, 
Production. ProductSubcategory. ProductSubcategoryID, Production. Product. ProductID, 
Production. Product. Color, Production. Product. StandardCo: 


ProductHane |Categorylane |Subcategory... |ProductCate... |ProductSube... |ProductID |Color [st 


HL Road Franm, Compo Road Frames 2 14 680 Black 

HL Road Fram, Road Frames 2 14 706 Red 
本 可 Sport-100 He， Helmets 4 31 707 Red 
| 要 志 Sport-100 He， Accessories Helmets 4 31 708 Black 

Mountain Bik. Clothing Socks 3 23 709 White 3. 396 
Hi il / 245 | 中 | > | 司 | 单元 格 是 只 读 的 。 


图 9.17 查询 生成 器 的 结果 


设置 根据 ProductID 来 排序 ,设置 躲 选 有 颜色 和 有 价格 的 产品 。 颜 色 Color 为 IS not 
null ,价格 StandardCost 为 “二 0”。 为 了 测试 查询 结果 , 单 击 工 具 栏 中 运行 按钮 ! ,执行 SQL 
语句 。 

查询 结果 显示 在 此 窗口 的 下 面 窗 格 中 。 可 以 看 到 产品 记录 是 先 按照 子 类 然后 按 产 品名 
称 进行 排序 的 ,如 图 9. 17 所 示 。 

单 击 查 询 生 成 器 的 “确定 ”按钮 ,查询 字符 串 返 回 到 “报表 向 导 ” 对 话 框 ,如 图 9. 18 所 示 。 
单 击 “下 一 步 ? 按 钮 继续 。 

说 明 : 图 9.18 显示 了 SQL 语句 ,可 以 直接 写 。 但 事实 上 对 于 这 种 有 架构 名 的 表 还 是 
使 用 图 形 界面 来 生成 比较 方便 。 

(6) 分 组 。 

单 击 “ 下 一 步 ” 按 钮 ,系统 会 提示 用 表格 还 是 用 和 矩阵 来 显示 ,这 里 使 用 默认 的 表格 。 接 下 
来 的 页 面 将 会 引导 用 户 指 定 报表 设计 元 素 ,例如 样式 (页 面 ) 布 局 ,数据 排序 以 及 分 组 。 

为 了 将 事情 简单 化 ,选择 “表格 格式 ”的 样式 ,所 有 的 数据 字段 都 在 单个 的 细节 上段, 如 
图 9. 19 所 示 。 

这 样 的 报表 将 简单 地 成 为 一 列 记录 , 称 为 表格 式 报 表 。 单 击 “ 下 一 步 ” 按 钮 进入 下 一 个 

a 


SGlxl| 
设计 查询 
指定 获取 报表 数据 要 执行 的 碍 询 。 


查询 生成 器 0D 


查询 宇 符 审 @) 

ELECT Production. Product. Name AS ProductHane, 
Production ProductCategory. Hane AS CategoryNane, 
Production. ProductSubcategory. Hane AS Subcategorylane, 

Production. ProductCategory. ProductCategoryID, 
Production. ProductSubcategory. ProductSubcategoryID, Production Product. ProductID, 
Production. Product. Color, Production Product. StandardCost 

Rom Production. Product INNER JOIN 
Production. ProductSubcategory ON 
Production. Product. ProductSubcategoryID = Production ProductSubcategory. ProductSubcategoryID 

INNER JOIN 
Produetion ProductCategory ON 
Production. ProductSubcategory. ProductCategoryID = 
lproduction. ProductCategory. ProductCategoryID 
IWHERE (Production. Product. Color IS NOT MULL) AD 


(Production. Product, StandardCost > 0) 
JORDER BY Production Product, ProductID 


加 


才 助 00) | 《上 一 步 @) | 下 一 步 中 > 完成 四 | 取消 | 
用 


图 9.18 查询 的 SQL 语句 


[ 报表 向 导 


选择 报表 类 型 
选择 要 创建 的 报表 类 型 。 


XXXXXXX 


图 9.19 选择 报表 类 型 


页 面 ,如 图 9. 20 所 示 。 
该 页 面 用 来 设计 显示 数据 的 行列 的 表 控 件 。 在 这 个 简单 的 报表 中 ,将 不 会 用 到 任何 分 
组 ,因此 所 有 4 个 字段 都 将 添加 到 细节 段 。 
这 个 报表 将 在 Category 和 SubCategory 列 上 分 组 。 从 “可 用 字段 * 列 表 中 选择 
CategoryName 字段 ,然后 单 击 “ 组 ”按钮 。 再 从 “可 用 字段 ”列表 中 选择 SubCategoryName 
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[EE 二 [|x| 


设计 表 
选择 表 中 数据 的 分 姐 方 式 


可 用 字段 : 显示 字段 中); 


ProductCategoryID 0 | 
ProductSubcategoryID 2 


Categorylane 
如 的 | SubcategoryNane 
详细 信息 外 > es 


< 册 除 外 ) | 
帮助 中 < 上 一 步 四 完成 四 | 取消 网 
A 


图 9.20 设计 分 组 


字段 ,然后 单 击 “组 ”按钮 。 从 “可 用 字段 ”列表 中 选择 ProductName、 ProductNumber、 
StandardCost 字段 并 且 单 击 “ 详 细 信 息 ” 按 钮 ,如 图 9. 20 所 示 。 

然后 单 击 * 下 一 步 ?按钮 ,如 图 9. 21 所 示 。 报 表 向 导 将 会 用 5 种 不 同 风格 之 一 来 创造 具 
有 协调 字体 (coordinated font) 和 颜色 的 控件 。 这 些 属性 可 以 以 后 在 设计 器 中 修改 。 保 留 默 
认 的 共同 设置 , 单 击 “ 下 一 步 " 按 钮 。 


选择 表 布局 
选择 表 的 布局 类 型 。 


XXXXXXXX 


图 9.21 选择 布局 


随 着 创建 其 他 报表 ,将 有 机 会 通过 使 用 字体 .颜色 .边框 和 图 形 来 定义 自己 报表 的 外 观 。 
报表 向 导 使 用 本 页 看 到 的 样式 模板 为 读者 设置 许多 属性 。 如 果 愿 意 ,所 有 这 些 属性 都 可 以 
在 报表 设计 器 中 改变 。 再 下 一 步 , 表 的 样式 也 使 用 默认 的 石板 。 最 后 一 步 完成 向 导 步 又 中 
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可 以 设 定 报表 的 文件 名 ,仍然 是 使 用 默认 的 Reportl ,如 图 9. 22 所 示 。 然 后 单 击 “ 完 成 ” 按 
钮 。 报 表 名 用 来 命名 该 报表 项 目 中 的 报表 定义 文件 ,并 将 其 作为 报表 管理 器 中 显示 给 用 户 
的 报表 标题 。 


民 报表 向 导 [sll 
完成 向 导 ME 
提供 名 称 ， 然 后 单 击 “ 完 成 ”创建 新 的 报表 。 1 
ll 
报表 名 称 @B); 
Report1 
报表 摘要 


源 : Adventuregorks 


图 
审 : Data Source=VIEWSTREAN; Initial Catalog=AdyentureWforks | 


‘Categorylane, Subcategorylane 


息 : ProductID, ProductName, Color, StandardCost 


图 
预览 报表 E) 


图 9.22 完成 向 导 


9.2.2 报表 设计 器 


完成 报表 向 导 将 创建 报表 ,报表 设计 器 以 布局 或 预览 的 方式 显示 。 报 表 设 计 器 在 顶部 
有 3 个 选项 卡 。 

。 数据 : 显示 报表 向 导 中 的 查询 设计 器 。 
。 布局 : 用 于 创建 或 更 改 报表 设计 。 
。 预览 : 用 于 查看 报表 中 的 数据 。 

Visual Studio 2005 包括 了 几 个 有 用 的 设计 器 窗口 ,它们 在 默认 情况 下 可 以 自动 隐藏 。 
当 将 鼠标 指针 在 设计 窗口 的 左 侧 或 右 侧 边沿 的 图 标 上 面 停留 片刻 ,就 可 以 看 到 这 些 自动 隐 
藏 的 窗口 。 

接 下 来 一 件 应 该 注意 的 事情 是 在 布局 视图 下 的 实际 报表 ,如 图 9. 23 所 示 。 报 表 设 计 器 
现在 是 Microsoft 集成 开发 环境 (IDE, 即 Business Intelligence Studio 或 Visual Studio ) 的 
一 个 组 件 ,并 且 它 使 用 了 很 多 内 置 到 Visual Studio 产品 中 的 窗口 和 工具 。 

随 着 进一步 学 习 , 读 者 将 看 到 许多 这 样 的 工具 。 报 表 向 导 也 能 从 列 名 中 解释 并 理解 这 
些 选 项 卡 。 注 意 ,在 每 个 列 标题 ,用 大 写字 母 描述 的 单词 都 有 一 个 空格 。 点 击 “ 预 览 ” 选 项 
卡 ,可 以 看 到 一 个 相当 好 的 报表 已 经 做 好 了 ,如 图 9. 24 所 示 。 
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国 六 | 国 而 局 | 区 天 


Standard 


=Fields!Produ =Fields!Produ =Fields!Color =Fields!Stand 


图 9.23 报表 的 设计 布局 


Report1.rdl [设计 ]| 起 站 页 ] 


围 数 掺 | 网 布局 [区 预 吕 
Hs 1 


Report1l 


Product ID |Product 
Nane 


707 Sport-100 /Red 13. 0863 
Helnet, Red 

708 Sport-100 |Black 13. 0863 
Helnet, 
Black 

T11 Sport-100 |Blue 13. 0863 


Helmet, Blue 


880 Hydration Silver 20. 5663 
Pack - 70 
oz. 
Parmiers 
842 Touring- Grey 51. 5625 
Pammiers, 
Large 


图 9.24 报表 的 预览 效果 


9.2.3 部 署 报表 


部 署 是 将 报表 放置 于 报表 服务 器 数据 库 ,以 便 用 户 可 以 通过 客户 端 来 查看 或 打印 报表 。 
报表 部 署 在 "解决 方案 资源 管理 器 ”窗口 完成 。 

下 面 右 击 项 目 名 ,选择 “部 署 ”, 如 图 9. 25 所 示 。 此 时 ,系统 会 
执行 操作 ,将 本 报表 项 目 所 有 报表 发 布 到 报表 服务 器 上 。 

部 署 执行 后 ,在 输出 窗口 输出 信息 ,如 图 9. 26 所 示 。 

在 浏览 器 输入 报表 服务 器 的 网 址 。 有 一 点 要 说 明 的 是 报表 服 
务 器 的 用 户 只 能 是 服务 器 上 的 Windows 用 户 。 所 以 访问 时 会 要 求 
输入 密码 。 进 去 后 就 能 看 到 刚才 那个 项 目的 目录 了 ,如 图 9. 27 所 示 。 


图 9.25 部 署 报 表 操 作 
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localhost/ReportServer - / 


2010 年 3 月 24 日 17:14 <diz> ReportDemo 
2010 年 3 月 17 日 15:41 <dir> 数据 源 


Microsoft SQL Server Reporting Services 版 本 9.00.1399.00 


部 署 : 1 马 ， 0 尼 关 吉 ， 0 CM = 
图 9.26 输出 结果 图 9.27 Web 显示 的 报表 项 目 目录 


点 进去 找到 那个 报表 ,打开 后 , 跟 在 SQL Server Business Intelligence Development 
Studio 中 的 预览 效果 是 一 样 的 ,如 图 9. 28 所 示 。 


CS 
文件 @) ”编辑 下 ) 查看 WW) 收藏 来 &) 工具 CI) 帮助 
这 收藏 天 。 仿 Report Viewer 


I 4h /sb bl [oox 辐 |[ 查找 | 下 一 个 ” [选择 格式 


707 Sport-100 Red 13.0863 
Helmet, Red 


708 Sport-100 Black 13.0863 


图 9.28 浏览 器 预览 报表 


9.3 编辑 制作 报表 


在 上 节 有 关 向 导 自 动 生成 报表 中 ,方法 简单 ,数据 分 组 功能 很 容易 ,但 缺少 灵活 性 。 本 
节 介 绍 手工 编辑 制作 报表 方法 ,可 以 设计 更 多 灵活 特性 。 


9.3.1 新 建 报表 项 目 


如 图 9. 29 所 示 ,在 “解决 方案 资源 管理 器 ?对话 框 中 , 右 击 “报表 ?新建 一 个 报表 , 选 “ 添 
加 ”及 “新 建 项 ”, 而 不 是 第 一 项 的 “添加 新 报表 ”。 弹 出 如 图 9. 30 所 示 的 对 话 框 ,在 模板 中 选 
择 “ 报 表 ”, 命 名 报表 名 称 为 Report2. rdl。 单 击 “ 添 加 ”按钮 ,在 “解决 方案 资源 管理 器 "对话 
框 中 ,就 添加 一 个 报表 文件 Report2. rdl。 


9.3.2 新 建 数据 集 


双击 “解决 方案 资源 管理 器 ”中 的 报表 文件 Report2. rdl, 在 工作 区 打开 Report2. rdl[ 设 
计 J 工 作 选 项 卡 ,点 击 “ 数 据 ” 选 项 卡 ,如 图 9. 31 所 示 。 

这 里 的 数据 集 和 . NET 的 数据 集 是 不 一 样 的 。 这 里 的 一 个 数据 集 只 能 有 一 张 表 ,虽然 
这 张 表 可 以 是 多 个 表 联合 而 成 。 如 果 要 再 添加 一 个 数据 集 依然 是 点 击 数据 集 列 表 框 的 最 后 
一 项 “新 建 数据 集 ”, 如 图 9. 31 所 示 。 弹 出 “数据 集 ” 对 话 框 ,如 图 9. 32 所 示 。 
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渗 加 新 项 - ReportDeaol 


类 别 : 模板 中 甸 国 
报表 项 目 Yisual Studie 已 安装 的 模板 
网 报表 向 导 国 报表 
地 数 据 源 
已 | 章 我 的 模板 
加 Phebe 大 搜索 联机 模板 . 
hdventureNorksDB. 7 
吕 访 | ie 
避 | 国 添加 新 报表 四 创 陵 新 的 全 白 报表 。 
二 人 名 称 中 : Report2 rdl 
国 现 有 项 G@)， 导入 报表 [I) 》 
局 属性 
图 9. 29 “解决 方案 资源 管理 器 ” 图 9. 30 “添加 新 项 "对话 框 
对 话 框 
本 
查询 | 字段 “| 数据 选项 | 参数 “| 第 过 器 | 
名 称 : 
DataSetl 
数据 源 : 
Adventur eW DB 之 下 F 


1 数据 | 多 市 局 | 区 预览 


| 
图 9.31 建立 数据 集 图 9.32 “数据 集 ” 对 话 框 


选择 查询 选项 卡 , 其 名 称 为 默认 名 称 DateSetl 名 称 ,数据 源 就 使 用 项 目 中 共享 的 数据 
源 AdventureWorkDB。 需 要 的 时 候 也 可 以 新 建 数据 源 。 查 询 字符 串 就 让 它 这 样 空白 ,直接 
单 击 “ 确 定 ” 按 钮 。 

回 到 “Report2. rdl[ 设 计 ]? 工 作 区 , 单 击 “ 数 据 ?选项 卡 的 “通用 查询 设计 器 ?按钮 ,如 
图 9. 33 所 示 ,将 切换 为 SQL Server 专用 查询 设计 器 ,如 图 9. 34 所 示 ,与 向 导 设 计数 据 集 类 
似 。 


| ”Beport2.rdl [设计 ]*| Reportl x 和 【设计 ] [起 她 页 | 
[可 数 据 | 鲍 布局 | 罗 预先 
数据 集 : ET 3 a 


图 9. 33 “Report2. rdl[ 设 计 ]” 工 作 区 
如 图 9. 34 所 示 , 设 计 出 跟 Reportl 一 样 的 SQL 语句 来 ,这 个 过 程 与 向 导 制 作 表 格 的 数 
据 集 设计 一 样 。 
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eport2- rd [证] Reportl rd [KR 寺 ] 无 起 页 ”x 
于 | 败局 | 县 现 % 


数据 入- Datasetl 国 … 字 有 多 | 下 | 回 | ! 加 纪 纺 交 全 和 悦 


ProductCate ProduetC. 回 
ProductSube, Produets, 回 
ProductID Produet 回 到 1 
Color Product 回 
StandardCost Product .. 二 
ml 量 | 
上 而 | 
ELECT Froduction ProductCateeory. Nne AS Cateeorylane, 画 
roduetion 了 oanctSibeat tentlS Sabesteeoryine, ei 
Produetion Product. Nene AS Produetll 目 
te 


tateeory. ProdoetC tteeory] 
站 让 人 st EtoryD, eanetion Preaaet ProanetI, 
redastien Produet Color, Production Produet. StandardCos 
apm Production. Produet INNER JOIN 
Production ProductSubcategory ON 图 | 


图 9.34 创建 数据 集 窗口 


单 击 图 9. 34 中 数据 集 列表 框 右边 的 “...” 按 钮 ,在 打开 的 对 话 框 中 把 数据 集 名 称 改 为 
Product, 如 图 9. 35 所 示 。 
可 
查询 | 字段 “| 数据 选项 | 参数 | 第 选 器 | 
名 称 : 


[Product 
数据 源 : 
AdventureWorksDB SN | 


(SELECT Production. ProductCategory. ProductCategoryID, 
Production. ProductCategory. Hane AS CategoryNane, 
Production ProductSubcategory. ProductSubcategoryID, 
Production. ProductSubcategory. Nane AS SubcategoryNane, 
Production. Product. ProductID, Production Product. Hane AS 


图 9.35 数据 集 的 SQL 语句 


9.3.3 报表 格式 设计 


在 图 9. 36 中 ,切换 到 布局 界面 。 在 报表 项 的 工具 中 , 拖 一 个 表格 控件 过 来 。 再 拖 一 些 
字段 到 表格 上 。 在 界面 左边 有 一 数据 集 面板 ,如 果 数 据 集 面 板 没有 显示 ,可 以 单 击 * 视 图 ” 沫 
单 的 最 后 一 个 子 菜单 “数据 集 ” 来 让 它 显示 出 来 ,如 图 9. 37 所 示 。 

点 击 数据 集 面板 中 的 CategoryName 字段 , 抑 入 布局 设计 区 表格 中 的 详细 信息 行 第 一 
列 , 同 样 方法 拖 和 人 ubCategoryName 字段 至 第 二 列 ,ProductID 至 第 三 列 , 右 击 第 三 列 , 在 其 
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Report2.rdl [设计 ]*| Reportl.rd [设计 ] 上 起 始 页 


转交 抬 | 图 布局 | 国 预览 


图 9.36 报表 布局 设计 区 


右 侧 插入 一 列 ,同样 方法 再 插入 两 列 。 相 同方 法 拖 人 ProductName、Color 和 StandardCost 
字段 ,并 将 第 一 行 名 称 分 别 改 为 : 大 类 .小 类 ID .产品 名 .颜色 和 成 本 ,效果 如 图 9. 38 所 示 。 


Report2.rdl [设计 ]*| 
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-| 要 Fields!Catego|=Fields!Subes|=Field| =Fields!ProductNane. Value [Frields!cEFields! Sta 


国 categoryNane 


图 9.37 数据 集 面 板 图 9.38 设置 报表 的 布局 


设置 一 下 表 头 .边框 ,对 齐 .数字 显示 格式 和 颜色 等 ,再 删 掉 表 尾 ,如 图 9. 38 所 示 。 具 体 
设置 查找 相关 帮助 。 


9.3.4 分 组 


分 组 显示 的 信息 更 清晰 .更 有 条 理 。 例 如 ,如 果 在 报表 中 按 区 域 对 销售 额 进行 分 组 , 那 
么 报表 使 用 者 一 眼 就 能 看 出 一 定 的 销售 趋势 ,而 在 其 他 情况 下 则 不 容易 发 现 这 些 趋 势 。 

本 实例 中 ,将 先 按 产品 的 大 类 别 展示 产品 的 颜色 及 成 本 ,并 且 大 类 司 - 
别 内 再 按 小 类 别 展示 产品 情况 。 通 过 在 报表 中 每 个 组 的 结尾 计算 合计 忆 Fi 
数据 , 即 可 取代 使 用 计算 器 手动 计算 数据 的 大 量 工作 。 在 本 节 中 ,介绍 
创建 分 组 或 汇总 报表 需要 执行 操作 。 

在 图 9. 39 中 , 右 击 详细 信息 行 行 标签 ,选择 “插入 组 ”, 如 图 9. 39 
所 示 。 

弹出 对 话 框 “ 分 组 和 排序 属性 ”, 如 图 9. 40 所 示 。 因 为 需要 按 大 类 
来 分 组 ,在 表达 式 中 选择 CatergoryName 字段 。 注 意 ,左下 角 的 两 个 复 图 9.39 插入 组 
选 框 ,默认 地 已 经 选中 了 ,如 图 9. 40 所 示 , 单 击 “ 确 定 ” 按 钮 , 回 到 布局 设 
计 界 面 。 

此 时 ,在 详细 信息 行 的 上 下 各 多 出 来 的 一 行 就 是 组 头 组 尾 了 ,如 图 9. 41 所 示 。 它 们 行 
标签 上 的 1 字样 表示 第 1 级 分 组 。 


分 组 和 排序 尾 性 x|l 


祝 规 | 和 过 器 | 排序 “| 可 见 性 | 数据 输出 | 
名 称 : 


[aiel_croml 


图 9. 40 “分 组 和 排序 属性 ”对 话 框 
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小 类 ID 产品 颜色 成 本 


=Fields!Subcategor |=Fields!Produc|=Fields IProduct!ll=Fields'Color. |=Fields!StandardCost.Y 


图 9.41 报表 布局 设计 界面 
如 同上 面 同样 方法 ,继续 插入 第 2 级 分 组 。 第 2 级 分 组 按 小 类 来 分 组 ,分 组 表达 式 为 
SubcategoryName 字段 ,如 图 9. 42 所 示 。 


Peport2.rd [设计 ]* Report1r 红 [设计 ] 了 起 娩 页 vx 
哆 数据 [加 韦 局 | 尼 预览 
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EFields!Produc|=Fields!Product!ll=Fields!Color. |zFields!StandardCost.] 


图 9.42 报表 布局 设计 界面 
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如 果 现 在 预览 ,将 会 看 到 每 组 之 间 都 会 有 空 行 隔 开 。 跟 向 导 产 生 的 有 很 大 的 不 同 。 继 
续 设计 ,在 大 类 和 小 类 分 组 的 组 尾 添加 合计 。 方 法 如 图 9. 43 所 示 ,在 表格 单元 中 输入 Sum 
(Fiedls!lStandardCost. Value) ,同样 在 下 一 步 单元 格 一 能 | i 
输入 : Sum (Fiedls!StandardCost. Value)。 在 两 单元 
格 旁边 单元 格 分 别 输 入 “小 类 合计 : ”与 “大 类 合 EE 
计 : ”, 如 图 9.43 所 示 。 J mFields 

设置 求 和 的 表达 式 都 是 一 样 的 : =Sum(Fields! - 烂 全 | 节 巡 闪 
SaaanaeeeE valiey 只 是 所 在 的 组 尾 不 同 .作用 域 ae ee Value) 
也 不 同 ,如 图 9. 44 所 示 。 图 9.43 设计 合计 


=Field| =Fields!ProductNane. Value Frielas'icFields sta 
小 类 合计 :=Sun (Fields 
大 类 合计 ， =Sum(Fields 


再 把 大 类 ,小 类 的 名 称 拖 到 它们 对 应 的 组 头 , 如 图 9. 44 所 示 。 预 览 效 果 , 可 以 看 到 分 类 
展示 ,如 图 9.45 所 示 。 报 表 已 按 类 分 开展 产品 情况 。 


heport2.rdl [设计 ]| Reportl.rdl [设计 ] | 起 始 页 | S| 
转 数据 | 岗 布局 区 预 移 
| t 5 
加 
大 类 小 类 ID 产品 颜色 成 本 
Components 
Road Frames 下 
680 HL Road Frame — Black $1, 059 
Black, 58 
706 HL Road Frame — Red $1, 059 
Red, 58 
Tt HL Road Frame — Red $869 
Red, 62 
718 HL Road Frame 一 Red $869 
Red, 44 
719 HL Road Frame — Red $869 
Red, 48 
720 HL Road Frame 一 Red $869 
Red, 52 
721 HL Road Frame 一 Red $869 
Red, 56 
722 LL Road Frame 一 Black $205 
Black, 58 
723 LL Road Frame 一 Black $205 
Black, 60 
站 724 11 Road Frame 一 Rlark $0N5 图 
一 | 图 | 


图 9.45 报表 预览 
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9.3.5 钻 取 功 能 


可 以 让 用 户 以 交互 方式 展开 或 折 秋 报表 项 ,而 对 于 表 或 矩阵 , 则 可 以 展开 或 折 释 与 组 关 
联 的 行 和 列 。 若 要 让 用 户 能 够 展开 或 折 笃 某 个 项 ,只 要 设置 该 项 的 可 见 性 属性 。 设 置 可 见 
性 在 HTML 报表 查看 器 中 有 效 , 有 时 也 称 为 “下 钻 ? 操 作 。 在 报表 设计 视图 中 ,可 以 指定 要 
显示 展开 和 折 秋 切换 图 标的 文本 框 的 名 称 。 在 呈现 的 报表 中 ,文本 框 中 除了 内 容 之 外 ,还 显 
示 加 号 (十 ) 或 减 号 (一 )。 用 户 单 击 切换 时 ,报表 显示 内 容 将 相应 刷新 ,以 根据 报表 中 各 项 的 
当前 可 见 性 设置 显示 或 隐藏 报表 项 。 

通常 ,可 见 性 切换 的 使 用 方式 是 最 初 仅 显示 摘要 数据 ,让 用 户 能 够 单 击 加 号 以 显示 详细 
信息 数据 。 例 如 ,可 以 一 开始 就 隐藏 显示 图 表 的 值 的 表 , 或 隐藏 包含 嵌 套 行 组 或 列 组 的 表 的 
子 组 ,这 与 在 明细 报表 中 相同 。 

操作 方法 : 右 击 第 2 级 分 组 的 组 头 行 标签 ,选择 “编辑 组 ”, 即 可 编辑 小 类 分 组 。 在 “可 
见 性 ”选项 卡 , 设 置 初 始 为 不 可 见 , 再 设置 由 报表 项 CategoryName 来 确定 可 见 性 ,如 图 9. 46 
所 示 。 

详细 信息 其 实 是 一 个 默认 的 组 , 右 击 它 的 行 标签 ,选择 “编辑 组 "。 类 似 地 ,在 “可 见 性 ” 
选项 卡 , 设 置 初始 为 不 可 见 , 再 设置 由 报表 项 “SubcategoryName" 来 确定 可 见 性 ,如 图 9. 46 
所 示 。 这 会 产生 折 释 的 效果 , 单 击 大 类 的 “十 ”就 会 展开 显示 小 类 。 官 方 的 说 法 叫 * 下 钻 ”, 如 
图 9. 47 所 示 。 


常规 | 第 选 器 | 排序 。 可 见 性 | 数 准 
初始 可 见 性 : 
| 和 4 Ea 产品 名 项 区 | 成 本 
位 隐藏 日 ”Components 
表达 式 ， 
加 i 
厅 可 由 其 他 关联 报表 项 确定 可 见 性 小 类 合计 : 。 15852.4320 
i Mountain 
| Franes 
小 类 合计 : 。 10218. 2052 
图 9.46 分 组 与 排序 属性 图 9.47 预览 钻 取 效果 


9.3.6 文档 结构 图 


文档 结构 图 提供 了 指向 呈现 报表 中 报表 项 的 一 组 导航 链接 ,用 户 通 过 单 击 文档 结构 图 
中 的 链接 ,可 以 跳 至 显示 报表 项 的 报表 页 。 

若 要 向 文档 结构 图 添加 链接 , 则 需要 将 报表 项 的 DocumentMapLabel 属性 设置 为 所 创 
建 的 文本 ,或 者 设置 为 计算 结果 要 在 文档 结构 图 中 显示 的 文本 的 表达 式 。 还 可 以 向 文档 结 
构图 添加 表 或 矩阵 组 的 唯一 值 。 例 如 基于 颜色 的 组 ,每 个 唯一 颜色 都 是 指向 显示 该 颜色 组 
实例 的 报表 页 的 一 个 链接 。 对 于 嵌 套 组 ,文档 结构 图 以 层次 结构 显示 组 值 。 可 以 创建 指向 
报表 的 覆盖 文档 结构 图 的 URL ,这样 就 可 以 在 运行 报表 时 ,不 显示 文档 结构 图 ,然后 通过 单 
击 报表 查看 器 工具 栏 中 的 “显示 /隐藏 ”按钮 ,可 切换 到 显示 文档 结构 图 。 
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操作 步骤 如 下 : 

(1) 编辑 大 类 分 组 ,在 分 组 与 排序 属 对 话 框 中 ,在 “文档 结构 图 标签 ”中 选择 “二 Fields! 
CategoryName. Value”, 如 图 9. 48 所 示 。 

(2) 编辑 小 类 分 组 ,在 “文档 结构 图 标签 ”中 选择 二 Fields!SubcategoryName. Value”， 
如 图 9. 48 所 示 。 这 时 预览 就 会 有 "文档 结构 图 "了 。 工 具 栏 最 左边 的 按钮 可 切换 是 否 显示 
文档 结构 图 ,如 图 9. 49 所 示 。 


第 规 | 请 过 器 | 排序 “| 可 见 性 | 半 
名 称 : 


tablel_Gr oupl 


分 组 方式 : 


=Fields!CategoryNane. Value 
大 类 


田 Components 


田 Accessories 


图 9.48 选择 分 档 结构 标志 图 9.49 预览 


单 击 文档 结构 图 中 的 项 ,可 以 快速 地 定位 到 该 项 所 在 的 页 的 页 首 。 全 部 展开 文档 可 达 
到 9 页 。 不 过 它 就 是 要 当 作 没 展开 时 的 一 页 ,这 就 没 法 享受 文档 结构 图 带 来 的 好 处 了 。 


9.4 矩阵 式 报表 


利用 报表 项 “矩阵”, 可 以 自行 设计 一 些 复杂 报表 。Adventure Works Cycles 公司 有 
AdventureWorksDW 数据 仓库 存储 了 每 种 新 产品 的 网 络 销售 情况 ,记录 了 每 种 新 产品 的 每 
个 地 区 ,每 年 每 季 及 每 个 月 的 各 人 订单 数量 ,销售 额 及 其 他 各 种 事实 数据 。 

AdventureWorksDW 是 一 个 数据 仓库 中 的 数据 集 ,FactInternetSales 是 其 中 一 个 事实 
表 , 主 要 记录 公司 网 上 销售 的 一 些 事实 数据 ,如 订单 数量 (字段 : OrderQuantity) ,销售 额 
(字段 : SaleAmount) ,其 中 有 些 关键 字段 为 ， 

。 产品 ID 号 (ProductKey) ,对 应 维度 表 DimProduct。 

。 区 域 ID 号 (SalesTerritoryKey) ,对 应 维度 表 DimSalesTerritory。 

。 订单 日 期 ID 号 (OrderDateKey) ,对 应 维度 表 DimTime, 可 以 产生 年 .季度 月。 

。 客户 ID(CustomerKey) 对 应 维度 表 DimCustomer, 可 以 产生 客户 的 职业 、 名 字 。 

现在 要 求 查看 每 个 客户 职业 的 订单 数量 和 销售 额 , 这 些 职业 的 事实 量 按 区 域 、. 年 份 、 
季度 和 月 份 分 组 展示 ,还 要 能 查看 单个 年 份 . 单 个 季度 和 单个 区 域 报表 统计 ,如 图 9. 50 
所 示 。 

这 张 表 显示 的 是 ,各 个 国家 的 各 种 职业 的 客户 ,在 每 年 ,每 季度 、 每 月 的 订单 数量 和 销售 
额 情况 。 这 里 的 职业 数量 是 不 确定 的 ,如 果 有 新 的 职业 的 客户 下 订单 ,那么 这 个 表 就 会 自动 
多 出 一 个 新 的 职业 的 列 来 。 本 节 演 示 该 报表 制作 过 程 。 
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Clerical Nanagenent Nanual 

国家 年 季度 | 月 订单 数量 销售 额 订单 数量 销售 额 订单 数量 销 全 

田 nstralia | 总 计 1425| $59, 147.37 2966| $68, 665. 21 845| $57, 161 
日 Canada 日 2001 3 了 | 总 计 1 $3, 578. 27 4 $7, 156. 54 
日 4| 1 2| $3,476.63 
11 2| $3,489.13 
12 2| $3,578.27 
总 计 6| $10,544.03 
总 计 1 $3, 578. 27 10| $17,700.57 

2002 总 计 18| $22,047.89 15| $28,296.85 1| $3,399 

nn mT EXT EE C7 TE 3 pn 


图 9.50 目标 报表 样式 


9.4.1 数据 集 建立 

(1) 新 建 一 个 报表 项 目 ,报表 文件 为 "矩阵 . rdl” ,如 图 9. 51 所 示 。 这 次 不 使 用 共享 数据 
源 所 对 应 的 AdventureWorks 数据 库 ,而 是 为 “矩阵 . rd1” 新 建 一 个 专用 的 数据 源 , 连 接 数据 
集 AdventureWorksDW 。 


数据 集 : Dataset! 国 .… 闻 [9 ! 命令 类 型 : Text 回 


图 9.51 数据 选项 卡 


(2) 在 数据 集中 选择 “新 建 数 据 集 ”, 打 开 如 图 9. 52 对 话 框 。 在 数据 源 中 ,不 选择 
“AdventureWorks( 共 享 )”, 而 是 “新 建 数据 源 ”。 打 开 对 话 框 “数据 源 ”, 如 图 9. 53。 点 击 编 
辑 ,选择 数据 仓库 数据 库 AdventureWorksDW ,确定 返回 到 图 9. 53 所 示 界 面 。 单 击 “ 确 定 ” 


按钮 返回 到 图 9. 52。 


Dataset2 
数据 源 : 


DiataSouree2 


命令 类 型: 


Text 


查询 字符 串 : 


图 9.52 创建 数据 集 对 话 框 
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图 9.53 数据 源 连接 对 话 框 


(3) 在 图 9. 52 中 设计 如 下 查询 语句 ,其 主要 得 到 不 同 职业 的 销售 的 订单 量 和 销售 额 。 
将 下 列 查询 SQL 语句 放 和 人 查询 字符 串 文 本 区 。 这 样 建立 本 报表 项 目的 数据 集 。 


SELECT 
DimsalesTerritory.SalesTerritoryCountry Rs 国家 ， 
DimTime.CalendarYear AS 年 ， 
Dintrime.Calendarouarter AS 季度 ， 
DinTime.MonthNuniberofYear Rs 月 ， 
Dimcustcmer.Englishoccupation AS 职业 ， 
SUM(FactIntemetSales.OrderQuantity) AS 订单 数量 ， 
AVG (FactIntermetSales.SalesAmount) Rs 销售 额 
FROM DimsalesTerritory INNER JOIN 
FactIntemetsales CN 
DimsalesTerritory.SalesTerritoryKey- FactIntemetSales.SalesTerritoryKey 
INNER JOIN 
Dimrime ON FactInternetsales.shippateKey- Dintfime.TimeKey INNER JOIN 
Dimcustcomer CN 
FactInternetsales.CustcmerKey- Dimcustomer.CustcmerFKey 
GROUP BY DimsalesTerritory.SalesTerritoryCountry，Dintrime.Calendaryear, 
本 SQL 语句 查询 出 数据 集 为 : 在 不 同 国家 的 职业 客户 中 ,每 年 、 季 、 月 的 订单 数量 及 销 
售 额 。 本 节 以 此 数据 集 来 制作 矩阵 报表 。 


9.4.2 矩阵 布局 


(1) 切换 到 “布局 ?选项 卡 , 先 拖 和 一 个 报表 项 “矩阵 ? 放 和 主体 ,再 在 数据 集中 把 * 国 家” 
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字段 放 入 矩形 的 行 , 然 后 把 “年 " 字 拖 入 矩形 的 行 , 放 在 “国家 ”字段 的 右 侧 。 分 别 如 图 9. 54 
和 图 9. 55 所 示 。 


FFieTds 国家 "| ”加 棋 
| -ie Fee] 
图 9.54 布局 字段 图 9.55 布局 年 字段 


(2) 相同 的 方法 ,继续 放 “ 季 度 ” 和 “月 ”, 如 图 9. 56 所 示 。 
口 | [ l | | 
=Fields! 国 家 .=Fields! 年 . Ya ED | 
图 9.56 布局 设计 其 他 字段 


(3) 调整 一 下 宽度 。 再 把 职业” 拖 入 * 列 ?单元 格 , 再 把 “订单 数量 ”和 ”销售 额 ” 拖 人 数 
据 单元 格 ,会 自动 增加 单元 格 ，* 订 单数 量 " 和 “销售 额 ” 的 列 标题 也 会 自动 加 ,其 效果 如 图 9. 57 


所 示 。 


=Fields! 职 业 . Yalue : 

订单 数量 销售 额 - 

=Fields 1 国家 .|=Fields |=Fields =Field ES Er | 
图 9.57 布局 设计 事实 字段 


(4) 对 图 9. 57 ,设置 一 下 对 齐 、 货 币 格式 ,边框 ,打开 预览 ,其 效果 如 图 9. 58 所 示 。 


Clerical 


3 12| $3, 516. 76| 
12| $3, 465. 94 | 


1| $3,374.99| 


Australia 2001 


图 9.58 预览 效果 


9.4.3 ”矩形 布局 


根据 图 9. 58, 其 国家 、 年 份 、 季 度 和 月 份 没 有 标题 ,现在 为 国家 、 年 、 季 度 、 月 加 上 列 标 
题 。 拖 一 个 “和 矩形”( 注 意 ,这 里 不 是 “矩阵 ”控件 到 最 左上 和 角 的 单元 格 , 如 图 9. 59 所 示 。 


=Fields! 职 业 . Yalue 


图 9.59 布局 矩形 
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再 拖 4 个 文本 框 放 和 人 和 矩形 控制 ,分别 输入 * 国 家?”“ 年 "“ 季 度 ” 和 * 月 ”, 设 置 一 下 文本 、 
大 小 .位 置 .边框 ,排版 整齐 ,如 图 9. 60 所 示 。 把 职业 那 一 行 拉 高 了 一 些 , 在 设计 时 就 把 它 调 
高 ,才能 让 这 几 个 文本 框 所 见 即 所 得 地 定位 。 可 以 采用 手工 修改 文本 框 的 Location 和 Size 
属性 值 ,能 保证 线条 精确 地 对 齐 。 


=Fields! 职 业 . Yalue 


图 9. 60 添加 字段 标题 


9.4.4 折 又 结构 


为 了 能 够 按 国 家 、 年 份 和 季度 统计 数量 ,并 能 体现 钻 取 功 能 ,需要 分 加 按 其 三 个 字段 分 
组 ,并 能 够 折 秋 展示 ,其 设计 操作 方法 如 下 。 

(1) 布 击 “ 年 ”的 字段 值 单 元 格 , 选 择 “ 编 辑 组 ”。 设 置 组 的 可 见 性 ,如 图 9. 61 所 示 。 类 
似 地 ,采用 同样 方法 依次 设置 “季度 "组 “月 "组 的 可 见 性 。 


分 钥 和 排序 尾 性 
常规 | 第 法 器 | 排序 。 [可见 性 上 数据 输 


图 9.61 设计 分 组 特征 


(2) 右 击 “国家 ”的 字段 值 单 元 格 ,选择 “小 计 ”, 此 操作 将 会 对 所 有 国家 的 销售 情况 进行 
求 和 ,如 图 9. 62 所 示 。 

(3) 类 似 地 接着 依次 设置 “年 "组 “季度 ”组 “月 ”组 的 小 计 。 最 后 对 “职业 ”组 进行 小 
计 , 如 图 9. 63 所 示 。 


国家 年 季度 


=Fields! 国 家 . |=Fields |=Fields 和 
Bt 时 了 于] 人 选择 “matrixlm 
ix 2 ge 人 洗 反 “证 住 ” 
图 9.62 设计 小 计 信息 图 9.63 设计 其 他 小 计 信 息 


预览 ,将 会 看 到 如 图 9. 64 所 示 的 效果 。 
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Clerical Managenent 
Es 和 要 加 EE 
下 Mustralia 2001 后 3 了 12| 3516.7600 3| 3578.2700 
日 12| 3465.9400 18| 2938.4540 
旧 1| 3374.9900 17| 3396.9493 
总 计 25| 10357. 6900 38| 9913.6733 
加 4 总 计 24| 9501.2750 50| 10668.0258 
总 计 49| 19858. 9650| 88| 20581. 6991 
加 2002 总 计 8| 24859. 0884 215| 31158. 8788 
男 2003 总 计 517| 12856. 3652 1141 | 13856.4296 
男 2004 总 计 771| 1572. 9523 1522| 3068. 1975 
总 计 1425| 59147.3709 2966| 68665.2050 
天 Canada 总 计 854| 33523.8716 1326| 54361.3140 
加 France 总 计 1793| 57288.0582 327| 28797. 6266 
mm Cermany 总计 1855| 63905. 9568 45| 40621. 4937 
图 9.64 预览 效果 


9.5 统计 图 表 


报表 项 与 表格 矩阵、 列表 这 些 报表 项 一 样 ,都 是 数据 区 域 ,这 意味 着 图 里 数据 集中 的 多 
条 记录 。 表 格 ,矩阵 和 列表 这 3 个 报表 项 可 以 把 其 他 报表 项 置 于 一 行 一 列 或 一 个 列表 区 域 
中 ,这 些 区 域 对 数据 集中 的 数据 可 重复 使 用 。 而 图 表 有 点 不 同 , 它 使 用 数据 集中 的 记录 创建 
条 形 图 、 曲 线 图 或 饼 形 图 ,但 不 能 在 它 里 面 置 人 报表 项 。 

注意 ,本 童 所 有 的 条 形 图 、 曲 线 图 或 饼 形 图 等 图 表 都 是 由 SQL Server 2005 系统 直接 生 
成 ,由 于 本 书 单 色 印 刷 ,为 清晰 起 见 稍 作 处 理 , 请 大 家 在 应 用 时 注意 实际 效果 。 

和 和 矩阵 类 似 的 , 先 要 为 每 种 图 表 的 数据 创建 数据 集 , 并 明白 什么 样 数据 是 适用 此 图 表 。 
这 里 把 图 表 的 知识 分 散在 各 种 图 表 类 型 中 。 也 就 是 说 ,只 看 一 种 图 表 类 型 的 说 明 , 并 不 能 完 
全 掌握 那 一 种 图 表 类 型 。 


9.5.1 图 表 元 素 

图 表 各 部 分 的 名 称 , 见 图 9.65。 了 解 图 表 的 名 称 . 有 利于 对 设置 图 表 属 性 。 需 要 记 住 ; 
标题 ,类别 标签 .序列 标签 .图 例 。 
9.5.2 柱 形 图 


Adventure Works Cycles 公司 需要 一 个 曲线 图 显示 指定 年 份 每 一 个 销售 员 自 行车 的 销 
售 额 量 。 公 司 想 从 一 个 下 拉 列 表 中 选择 一 个 年 份 ,显示 哪些 年 份 有 可 用 数据 。 除 此 之 外 , 公 
司 还 想 查 看 每 个 年 份 不 同 销售 员 的 总 销售 额 。 


1. 新 建 报表 项 目 


打开 Business Intelligence Development Studio 并 打 报 表 服 务 项 目 ReportDemo。 在 “ 解 

决 方案 资源 管理 器 "窗口 右 击 “ 文 件 夹 ”", 从 上 下 文 菜单 中 选择 “添加 ”选项 ,再 选择 “新 建 

项 ”, 弹 出 “新 建 项 ”对 话 框 。 在 对 话 框 中 的 模板 中 选择 “报表 ”, 报 表 项 目 名 称 为 “图 
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表 1. rdl”。 这 样 建 立 一 个 报表 项 目 “ 图 表 1. rdl”。 


显示 标签 (Y 币 ) om 


| 等 
EE 
站 


标题 (Y 轴 ) 
串 
主要 网 格 线 (Y 轴 ) 
二 | 次 要 网 格 线 (Y 轴 ) 
2003 年 
本 
四 标题 (X 轴 ) 一 一 年 度 。” 次 要 刻度 线 (X 轴 ) Rs ee 
和 [ 导 - 记 7 -0 神父 序列 7 -总 在 - 序 52 | 
图 例 序列 标签 
图 9.65 图 元 素 的 名 称 
2. 建立 数据 集 


双击 报表 项 目 “ 图 表 1. rd1”, 打 开 报 表 项 目 。 在 “数据 ”选择 卡 中 ,选择 数据 集中 的 “新 建 
数据 集 ” ,根据 数据 源 AdventureWorks, 利 用 以 前 的 方法 根据 下 列 SQL 语句 建立 数据 集 。 
数据 集 名 称 为 默认 的 DateSetl 。 

此 数据 集 就 是 提取 每 个 销售 员 各 年 的 总 的 销售 额 ,并 能 够 提取 姓名 及 其 性 别 。 其 SQL 
代码 如 下 : 


SELECT Person.Contact.FirstName AS 销售 员 ，SUM(Sales.SalesOrderHeader.SubTotal) 
RS 销售 额 , YEAR(Sales.SalesorderHeader.OrderDate) AS 年 ， 
CASE HumanResouroes .Erployee.Gender WHEN N'F' THEN N' 女 ' WHEN N'M' THEN N' 男 ' 
ELSE N'" 妖 ' END RS 性 别 

FROM Sales.SalesPerson JINNER JOIN 
HumanResouroes.Fnployee ON 
Sales.SalesPersan.SalesPersmID= HImenRescuroess.Ftployee.EployeeID INNER JOIN 
Person.Contact CN 
HumanResources .Fployee.ContactID= Ferson.Contact.ContactID INNFR JOIN 
Sales.SalesorderHeader ON 

GROUP BY Person.Contact..FirstName, 

YEAR (Sales.SalesorderHeader .OrderDate), 
HumanResources.Erployee.Gender 


3. 目标 图 例 


目标 图 是 一 个 较为 简单 易 懂 的 图 表 。 由 销售 员 和 销售 额 构成 的 二 维 图 表 如 图 9. 66 所 
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示 。 该 图 表演 示 2001 年 不 同 销售 员 的 销售 额 情况 ,并 且 和 希望 提供 参数 化 选择 不 同年 份 ,得 
到 不 同年 份 的 图 表 。 


4. 图 标 制作 过 程 


(1) 从 报表 项 中 拖 一 个 图 表 控件 到 主体 。 单 击 主体 ,图 表 控 件 的 “将 XXX 字段 拖 至 此 
处 ? 框 就 会 消失 。 选 中 图 表 控 件 的 情况 下 ,再 单 击 一 下 图 表 控 件 , 这 些 框框 就 会 再 现 , 如 
图 9. 67 所 示 。 


将 数据 字段 拖 至 此 处 
100- 
2001 年 销售 情况 go 
650- 
国 序列 1 | | 将 序列 字段 拖 
如 加 序列 2 En 
| 
Linda David Jilian Pamela Stephen aa 
Michael Garrett Shu Tsvi José| 
销售 员 将 类 别 字段 气 至 此 处 


图 9.66 本 例 的 效果 图 9.67 柱 图 设计 界面 


(2) 把 销售 额 字 段 拖 到 数据 处 ,把 销售 员 字段 拖 到 类 别处 。 当 字段 拖 到 主体 上 方 时 ,图 
表 的 那些 框框 会 消失 ,不 要 释放 ,继续 拖 到 图 表 上 方 ,那些 框框 就 会 再 现 ,如 图 9. 68 所 示 。 

(3) 适当 地 调整 一 下 图 表 的 大 小 。 布 击 图 表 , 选 择 属性 。 给 图 表 输 入 标题 ,在 这 里 可 以 
改变 图 表 类 型 。 在 这 里 使 用 默认 的 “ 柱 形 图 ”。 还 可 以 改变 “ 子 图 表 类 型 ", 还 是 使 用 默认 的 
柱 形 图 ,如 图 9. 69 所 示 。 


将 数据 字段 拖 至 此 处 党 规 | 数据 |x 狗 |Y 加 | 图 网 | 三维 效果 | 清寺 
名 称 : 
lchartl 
遍 标题 
2 加 序列 1 
| 
Chess 图 表 类 型- 子 图 表 类 型 : 
[入 范 画 > 
DA B C0 E 攻 条 形 图 [na 
| 区 折 沿 图 Li 
销售 员 将 类 别 字 段 拖 至 此 处 人 @ 访 图 Er 
图 9.68 设计 图 的 X 轴 与 Y 轴 图 9.69 设计 图 的 常规 属性 


(4) 在 X 轴 选项 卡 输入 X 轴 的 标题 。 旁 边 的 颜料 桶 按钮 可 以 设置 标 题 的 样式 ,如 图 9. 70 
所 示 


(5) 在 Y 轴 选 项 卡 输入 标题 ,并 设置 标签 格式 代码 ,如 图 9.71 所 示 ,如果 格式 代码 设 为 
“人 民 币 # ,0 块 钱 ”, 也 能 被 正确 地 解释 。 

(6) 在 图 例 选项 卡 取消 选中 “显示 图 例 ”, 如 图 9. 72 所 示 。 

(7) 在 筛选 器 选项 卡 设置 只 选 2001 年 的 数据 ,如 图 9. 73 所 示 。 
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常规 | 数据 |x 轴 TY 轴 | 图 网 | 


一 一 一 一 包 | 党 规 | 数据 |x 轴 |Y 负 图 由 | 三 
常规 | 数据 x 轴 |r 轴 | 图 全 | Ba 厂 深 示 图 加 
标题 : 格式 代码 ; 
| Fr 加 二 
会 相 
图 9.70 和 X 轴 标题 设置 图 9.71 设置 Y 轴 属性 图 9.72 设置 图 例 


党 规 | 数 括 |x 轴 |Y 轴 | 图例 | 三 维 效果 [东区 要 ] 
谨 生 器 : 


表达 式 


=Pields! 年 . Value 


图 9.73 设置 筛选 器 


(8) 预览 效果 如 图 9.74 所 示 。 该 图 表 显示 是 指定 的 年 份 的 各 销售 员 的 销售 额 状况 , 若 
需要 提供 用 户 具 有 交互 的 年 份 选择 的 图 表 , 需 要 设计 出 参数 图 表 。 见 下 一 部 分 设计 过 程 。 


2001 销 售 情 况 
$2,000,000 


$1,500,000 


$1,000,000 


销售 额 


$5500,000 


José Shu Linda Pamela 
Garrett David Jillian Stephen Michael 


销售 员 
图 9.74 预览 效果 


5. 参数 图 表 


本 节制 作 的 图 表 显示 如 图 9. 74 柱 形 图 。 但 是 ,如 果 该 图 表 带 有 参数 ,能 够 通过 从 一 个 
下 拉 列 表 中 选择 一 个 年 份 , 则 能 显示 不 同 的 年 份 各 销售 员 的 销售 额 柱 形 图 表 。 

1) 创建 参数 

在 布局 选项 卡 , 单 击 “ 报 表 ” 一 “报表 参数 ”命令 ,弹出 “报表 参数 ”对 话 框 。 单 击 “ 添 加 ” 按 
钮 ,名 称 改 为 Year ,数据 类 型 为 Integer ,提示 一 栏 中 输入 “选择 年 份 ”。 

在 “可 用 值 ” 选 择 区 中 选中 “来 自 查询 ” 单 选 按钮 。 在 数据 集 下 拉 列 表 中 选择 DataSetl 。 
值 字段 下 拉 列 表 选 择 “ 年 ”, 此 选择 使 该 值 传递 报表 参数 。 标 签字 段 选择 “年 ” ,确定 下 列 显示 
的 内 容 。 

默认 值 选择 “无 查询 ”, 在 文本 框 输入 2001, 整 个 对 话 框 最 后 如 图 9.75。 单 击 “ 确 定 ” 按 
钮 ,报表 参数 创建 完毕 。 
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图 9.75 报表 的 参数 设置 


2) 选择 参数 作 筛 选 值 

在 前 面 图 表 设 计 的 布局 选项 卡 中 , 右 击 前 面 图 表 , 打 开 属 性 对 话 框 ,选择 “筛选 器 "对话 
框 ,表达 式 为 字段 “年 ”, 运 算 符 为 =”, 值 通过 表达 式 设置 参数 Year, 即 “== Parameters! 
Year. Value”, 如 图 9.76 所 示 。 


9.76 “图 表 属 性 ”对 话 框 


。264。 


3) 预览 
选择 “预览 ?选项 卡 ,如 图 9. 77 所 示 , 它 没有 选择 参数 ,而 是 使 用 默认 的 2001。 在 选择 
年 份 下 拉 列 表 中 选择 2004 ,再 单 击 “ 查 看 报表 ?按钮 ,这 时 会 显示 2004 年 的 图 表 。 


转 数 据 | 网 布局 区 开本 


选择 年 份 [2001 图 


图 

$2,000,000 

$51,500,000 
党 

入 $1,000,000 
诗 

$500,000 

50 
Tsvi José Shu Linda Pamela 
Garrett David Jilian Stephen Michael 
销售 重 
图 9.77 预览 


6. 展示 各 年 的 图 表 


现 演 示 以 各 年 份 的 不 同 销售 员 的 销售 额 的 柱 形 图 ,如 图 9. 78 所 示 。 在 本 图 形 中 ,增加 
一 个 年 度 维 , 并 且 以 “年 "字段 来 做 X 轴 ,展示 不 同 的 销售 人 员 的 销售 额 。 


2003 年 前 的 销售 情况 

$3.500,000 

43.000.000 

42.500000 
上 42.000000 Amy 
雏 $1500000 Tsvi 

mm Garrett 
$1.000.000 Dinid 
$500000 | 
有 ”2001 年 2002 年 2003 年 
年 度 
图 9.78 目标 效果 


操作 步骤 如 下 : 

(1) 再 拖 一 个 图 表 控 件 到 主体 。 把 要 用 的 字段 拖 到 它们 该 去 的 地 方 ,如 图 9.79 所 示 。 

(2) 给 图 表 设 置 标题 ,给 Y 轴 设 置 标题 和 格式 代码 。 给 X 轴 设置 标题 和 格式 代码 ,如 
图 9. 80 所 示 。 

(3) 设置 筛选 器 ,使 年 份 值 为 小 于 或 等 于 2003, 销 售 员 只 是 指定 几 个 ,如 图 9. 81 所 示 。 
In 运算 符 后 面 的 值 必须 是 字符 串 类 型 。Split("",(,)) 产 生 若 干 字符 串 的 函数 。 

(4) 在 数据 选项 卡 , 单 击 “ 类 别 组 ”的 “编辑 ”。 设 置 类 别 按 年 升序 排序 ,如 图 9. 82 所 示 。 


» 265 。 


畏 信 额 | 。 将 数据 字段 拖 至 此 处 
2003 年 前 的 销售 情况 销售 员 
坚 ”3960 
帘 18 xz 儿 |* 轴 | 国 交 | 
次 < 拓 晤 己 多 1 | 将 应 列 字 段 拖 A 
A C E| 曙 序列 3 至 此 处 FE 名 | 
B D 
年 度 [显示 标签 
格式 代码 : 
荔 ] ”将 类 别 字段 措 至 此 处 : = 
图 9.79 设置 轴 与 序列 图 9.80 设置 X 轴 


分 组 和 排序 尾 性 
常规 | 第 先 器 排序 | 数据 输出 | 


ET 排序 方式 : 


=Fields! 年 , Yalue « 
》 =Fields! 销 售 员 . Yalue In 


图 9.81 设置 筛选 器 图 9.82 设置 排序 


(5) 设置 X 轴 和 YY 轴 的 标题 ,及 相应 的 格式 代码 ,如 图 9. 83 所 示 。 


常规 | 数据 区 划 _ jjr 轴 | 图例 | 三维 效果 | 第 选 器 | 


标题 : 标题 对 齐 : 主要 齐 度 线 
卫 凶 | 广告 左 外 部 
位 居中 次 要 刻度 线 : 
证 显示 标签 F 千 右 于 
格式 代码 
芋 | 厂 他 让 
景 小 值 : 末 反 转 
PF 
| 
图 9.83 设置 X 轴 


(6) 预览 图 表 效 果 , 其 结果 如 图 9.78 所 示 。 


9.5.3 折线 图 


本 节 展 示 折 线 图 ,本 节 主 要 是 演示 公司 的 2001 年 至 2002 年 不 同 销 售 人 员 的 销售 额 的 
走势 ,采用 折线 图 表 的 方式 展示 ,如 图 9. 84 所 示 。 本 节 数 据 源 为 AdventureWorkes ,数据 集 
需要 月 份 字段 。 

操作 步骤 如 下 : 

(1) 新 建 一 个 数据 集 ,数据 源 为 AdventureWorkes ,数据 集 的 SQL 代码 如 下 : 该 数据 集 
增加 一 个 SELECT 内 容 *MONTH(Sales. SalesOrderHeader. OrderDate) AS 月 ”和 排序 句 
“ORDER BY 年 ， 月 ”。 

(2) 再 拖 一 个 图 表 到 主体 。 如 图 9. 85 所 示 ,把 各 字段 拖 到 如 下 图 所 示 的 位 置 ,把 销售 
额 拖 至 数据 字段 ,销售 员 拖 拉 序 列 字段 位 置 , 先 拖拉 年 至 类 别 字 段位 置 ,再 拖拉 月 至 类 别 字 
段位 置 。 
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销售 员 的 2001 年 到 2002 年 技 月 的 销售 额 走势 


“David 中 Jilian 中 Garett José 号 Jae 中 Amy 


销售 疾 


上 一 组 1 一 一 一 -一 组 2 一 一 一 
年 份 


将 类 别 字段 拖 至 此 处 


9.85 设置 轴 参 数 


(3) 右 击 图 表 ,选择 “属性 ”, 弹 出 属性 对 话 框 ,在 对 话 框 中 选择 图 表 类 型 改 为 "折线 图 ”。 
设置 筛选 器 ,如 图 9. 86 所 示 。 


=Fields! 销售 员 . Value 
Fields! 年 . Value 
米 


“KR 
=2002 


图 9.86 筛选 器 的 条 件 


(4) 设置 图 例 的 布局 和 位 置 ,如 图 9. 87 所 示 。 
(5) 在 表 属性 的 “数据 ”选项 卡 ,点 击 “ 值 ”的 “编辑 ”按钮 ,如 图 9. 88 所 示 。 
(6) 在 “ 值 ” 项 卡 的 序列 标签 输入 一 些 文字 ,如 图 9. 89 所 示 。 
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图 9.87 图 例 设 置 


图 9.89 图 中 值 设置 
(7) 按 下 图 设置 标记 的 外 观 ,如 图 9. 90 所 示 。 


图 9.90 编辑 图 的 外 观 


(8) 最 后 调整 图 例 的 宽度 和 位 置 , 使 图 表 的 最 效果 更 传 佳 ,如 图 9. 91 所 示 。 
最 终 的 预览 效果 如 图 9. 92 所 示 。 
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销售 员 的 2001 年 到 2002 年 控 月 的 销售 桥 走 势 
十 序列 1 二 序列 2 十 序列 3 


B 
t+ 
年 份 


得 2 一 


9.91 图例 位 置 调整 效果 


SELECT Ferson.Contact.FirstName RS 销售 员 ， 


SUM(Sales.SalesorderHeader.subTotal) Rs 销售 额 ， 
YEAR(Sales.SalesorderHeader.Orderpate) RS 年 ， 
MONTH(Sales.SalesOrderHeader.Orderpate) AS 月， 

CRSE HumanResources.Enployee.Gender WHEN N'F' THEN N' 女 ' WHEN NM' THEN N' 男 ' 
ELSE N' 妖 ' END AS 性 别 


FROM Sales.SalesPerson INNFER JOIN 


HumanResources.Fnployee CN 

Sales.SalesFerson.SalesFRersonID= HmenResources.Ehployee.EnployeeID INNER JOIN 
Person.Contact CN 

HumanResources .Frployee.ContactID= Person.Contact.ContactID INNER JOIN 
Sales.SalesOrderHeader CN 

Sales.SalesPerson.SalesPersonID= Sales.SalesOrderHeaqder.SalesPersonID 


GROUP BY Person.Contact.FirstName, YEAR(Sales.SalesorderHeader.OrderDate), 


HumanResources.Fnployee.Gender, MONTH (Sales.SalesOrderHeader.OrderDate) 


CRDER BY 年 ,月 


锻 售 员 的 2001 年 到 2002 年 技 月 的 销售 铬 走势 


David Jiian Garett 二 Jos6 Jae 二 Amy 


销售 疾 


图 9.92 预览 效果 
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9.5.4 饼 图 


操作 步骤 如 下 : 

(1) 拖 一 个 图 表 过 来 ,设置 为 饼 图 。 让 “销售 额 * 作 为 数据 ,让 “销售 员 ” 作 为 类 别 。 
不 加 序列 ,这些 更 美观 ,如 图 9. 93 所 示 。 

(2) 设置 筛选 器 为 “销售 员 二 发”, 只 是 展示 部 分 销售 员 的 图 形 , 如 图 9. 94 所 示 。 


漂 
岂 


销售 额 | 将 数据 字段 拖 至 此 处 


本 序列 1 
电 引 将 所 这 党 规 | 数据 |x 轴 |Y 轴 | 图 网 | 三 维 效果 第 和 器 
国 1 . 
国 序列 1 第 过 器 : 
Ee ET 


销 佛 员 | 将 类 别 字 段 疮 至 此 处 =?ields! 销 售 员 . Value < K 


图 9.93 人 饼 图 轴 及 数据 设置 图 9.94 筛选 器 的 表达 式 


(3) 再 设置 一 些 标题 ,规格 大 小 。 预 览 效 果 如 图 9. 95 所 示 。 


图 9.95 效果 图 图 9.96 图 表 编 辑 


9.5.5 圆 环 图 


随 着 饼 图 的 小 块 数 的 增加 ,靠近 圆心 部 分 的 线条 就 会 越 密集 。 这 样 靠近 圆心 部 分 已 经 
成 为 一 种 干扰 。 圆 环 图 则 显得 有 优势 。 

操作 步骤 如 下 : 

(1) 复制 一 份 饼 图 ,把 图 表 类 型 改 为 圆 环 图 。 

(2) 设置 一 下 它 的 点 标签 ,如 图 9. 96 所 示 。 


二 Fommat (Sum(Fields! 销 售 额 .Value) /Sum(Fields! 销 售 额 .Valve, "chart6"),"0.0%") 
& vbhcrlf 
& Fommat (Sum(Fields! 销 售 额 .Value)/10000,"(0 万 )") 


其 中 chart6 为 该 图 表 的 Name 属性 的 值 。 填 图 表 名 和 填 数 据 集 名 是 不 一 样 的 。 因 为 
图 表 范 围 的 数据 是 经 过 了 筛选 器 的 。 即 使 是 同一 个 销售 员 也 会 有 多 个 销售 额 ,因为 有 多 个 
年 度 。 所 以 统计 一 个 销售 员 的 销售 额 ,要 用 语句 


Sum(Fields! 销 售 额 Value) 


(3) 把 点 标签 的 颜色 改 成 白色 。 
,270 。 


(4) 预览 效果 如 图 9. 97 所 示 。 


图 9.97 预览 


9.6 主体 的 多 列 


数据 库 AdventureWorks 中 ,有 一 个 表 Person. Contact, 其 保存 公司 的 通信 联系 信息 ， 


现 采 用 报表 方式 制作 通讯 录 。 


操作 步骤 如 下 : 
(1) 新 建 一 个 报表 “多 列 . rdl”"。 用 下 面 的 语句 创建 数据 集 , 其 数据 源 仍 为 AdventureWorks。 
SELECT TOP (100) FirstName, Fhone 
FROM Person.Contact 
(2) 把 主体 调 得 只 有 5cm 宽 。 设置 主体 为 3 列 , 列 间距 为 0.2cm, 如 图 9. 98 所 示 。 
(3) 在 主体 上 放 一 个 表 , 如 图 9. 99 所 示 。 
(4) 设置 表 属性 ,让 表 头 在 每 一 页 上 重复 ,如 图 9. 100 所 示 。 
(5) 直接 预览 看 不 出 什么 效果 来 。 单 击 " 打 印 布局 ”按钮 ,再 调整 缩放 为 100% ,如 图 9. 101 


所 示 。 


厂 在 该 表 前 面 插入 分 页 符 
厂 在 该 表 后 面 插入 分 页 符 


图 9.100 表 属 性 设置 


因 | 本 | 可 权 日 - | EN | 


图 9.99 主体 布局 图 9.101 打印 布局 按钮 
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其 效果 如 图 9. 102 所 示 。 


327-555-0148 1 (11) 500 555~ 
0113 


Sham | 396-555-0187 


Glerma 


398-555-0132 


922-555-0193 
500-555-0134 


747-555-0171 


334-555-0137 


John 521-555-0195 
599-555-0127 717-555-0131 
Christophe | 1 (11) 500 555- 
Pilar |1 (11) 500 555- Ton S83-655-0177 i 0132 
le Thonas | 226-555-0146 


Frances 991-555-0183 0127 


149-555-0113 


Bradley | {11) 500 555- 


Margaret 959-555-0151 


图 9. 102 通讯 记录 效果 


9.7 小 结 


本 章 主要 介绍 报表 功能 及 其 常用 报表 内 容 制作 过 程 。 其 内 容 主 要 围绕 SQL Server 
2005 中 报表 制作 功能 及 服务 体系 进行 介绍 ,包括 报表 结构 .报表 传递 方式 及 其 报表 软件 系 
统 的 体系 结构 。 本 章 最 重要 内 容 是 介绍 报表 制作 过 程 , 主 要 是 向 导 制 作 报表 、 编 制 报表 、 和 矩 
阵 形式 自由 制作 方式 ,还 有 各 种 统计 图 表 制 作 方式 。 

本 章 使 用 的 数据 可 以 是 传统 的 关系 数据 库 , 还 可 以 是 数据 仓库 数据 。 本 章 操作 实例 中 
采用 SQL Server 2005 自 带 的 示例 数据 库 。 作 为 一 般 报 表 制 作 过 程 介绍 ,本 数据 没有 过 多 
强调 数据 仓库 的 数据 ,其 制作 过 程 与 数据 关系 不 大 。 


9.8 实 验 


安装 有 AdventureWorks 数据 库 的 Microsoft SQL Server 2005。 必 须 先 下 载 并 安装 
SQL Server 2005 示例 和 示例 数据 库 , 才 能 对 其 进行 查看 或 使 用 。 

实验 1: 创建 基本 表 报 表 。 

仿照 本 章 实验 中 的 步骤 来 学 习 如 何 创建 第 一 个 报表 。 如 何 使 用 报表 设计 器 来 创建 数据 
源 连 接 , 定 义 简单 查询 并 生成 包含 数据 的 布局 。 

实验 2: 向 报表 添加 参数 。 

按照 本 章 实 验 中 的 步骤 来 学 习 添 加 控制 报表 外 观 和 内 容 的 参数 。 

实验 3: 创建 基本 矩阵 报表 。 

按照 本 章 实 验 中 的 步骤 学 习 如 何 创 建 包含 矩阵 的 报表 。 

实验 4: 向 报表 添加 饼 图 。 

按照 本 章 实验 中 的 步 又 学 习 如 何 向 报表 添加 饼 图 。 

实验 5: 向 报表 添加 条 形 图 。 

按照 本 章 实 验 中 的 步 又 学 习 如 何 向 报表 添加 条 形 图 。 
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